这是一个小爬虫,用于爬取并导师在CNKI收录文献的相关信息,通过生成词云,直观了解导师研究方向 本项目数据基于iTutor_spider
https://www.bilibili.com/video/BV1XN4y1K7KQ
- 需自行下载适配个人电脑的浏览器driver至目录
iTutor_tool
(本项目自带chromedriver) 下载地址点这里 - 目录
iTutor_setting
中的jieba_dict.txt
为自定义分词配置文件,一行一词 - 目录
iTutor_setting
中的stopwords.txt
为自定义排除词配置文件,一行一词
爬取文献名,绘制词云
详见 https://github.com/users/whitewatercn/projects/3
selenium jieba wordcloud xlrd