作者:Nong-Yi(本人属于借鉴并改进,如有侵权请联系删除,谢谢)
版本:1.1.0
版权:©️Nong-Yi(以下内容为原作者原创,转载请注明出处)
- ✅增加了随机UA头,构建了Cookie池(jd_cookies.py),为爬取多种商品做好防风控
- ✅增加了data目录,用于存储爬取到的数据
- ✅将每一条评论构建为字典,append到列表中,最后将列表写入CSV文件
- ❗❗(特别注意)经本人多次测试,最终爬取的单个商品评论数据中有重复部分,建议使用drop_duplicates()去重,不知道的可自行百度,非常简单
- ❗❗(特别注意)cookie不稳定,容易过期或被服务器拒绝,导致报KeyError:'maxPage'错误。最好不要让cookie池中的账号退出登录,也可人工点击页面的“商品评价”处,手动过服务器的验证(旋转验证码)
- ❗❗(特别注意)单个商品规格的评论可能会报KeyError:'comments'错误,目前暂未解决
- 🚩TODO:
- 1、增加代理池
- 2、优化各个函数,重写变量的命名
- 3、使用rich库代替tqdm模块
模块使用了re、httpx这些库
httpx模块是一个可以发送网络请求的模块,与requests库相似但有一个requests库没有的功能,就是httpx可以发送http2协议的请求
re库是一个正则表达式的一个工具
关于这两个库大家可以去官网了解我就不过多介绍了
# 安装方式(安装了可以跳过): pip install httpx # 上面安装的httpx没办法使用http2请求我们还需要继续安装下面这个 pip install httpx[http2] # 这样就可以使用http2协议进行请求了 pip install re