301工程小队_搜狗公众号文章

介绍

爬取搜狗微信公众号文章的体系，将实现爬取、部署、合并csv、更新数据库等操作

selenium_sogou.py
模块的爬取路线:从首页ajax模拟加载保存为csv文件==>文章详情页保存为html文件==>公众号微信号保存为csv文件。
目前公众号微信号的爬取还有点问题，有可能是爬取速度太快导致被检测无法继续爬取。
merge_csv_sogou.py
该模块用来对文章索引和基本信息（不包括文章内容）的csv文件进行整合，并找出没有更新到数据库的文章，便于pageop_mongo_sogou.py模块进行数据库的更新，整合后的索引csv文件pages.csv还可以给selenium_sogou.py模块优化速度和请求量，对已经爬取过的文章跳过打开文章详情页的过程，防止被反爬。
pageop_mongo_sogou.py
该模块利用merge_csv_sogou.py模块整合的索引csv文件db_pages.csv对保存为html文件的文章读取并和基本信息写入mongodb数据库。

pageCsv
保存了每次爬取文章的索引和基本信息（不包括文章内容）csv文件，主要有三种形式：
pages.csv保存了所有文章的索引
db_pages.csv保存了未存入数据库的文章索引
u_xxxxxx.csv保存了在时间戳为xxxxxx的第u个标签下的文章索引
pageHtml
保存了每次爬取文章的内容，存为html文件，以爬取的文章ID命名
suscriptionCsv
保存了每次进行爬取后所涉及到的公众号及微信号（该文件夹的体系目前有些问题，还未解决，以及需要编写合并程序和存数据库程序）

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
README.md		README.md
User_Agents.py		User_Agents.py
merge_csv_sogou.py		merge_csv_sogou.py
pageop_mongo_sogou.py		pageop_mongo_sogou.py
selenium_sogo.py		selenium_sogo.py