Skip to content

Viper373/JD-comments

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 

Repository files navigation

python爬取京东商品评论数据

作者:Nong-Yi(本人属于借鉴并改进,如有侵权请联系删除,谢谢)

版本:1.1.0

版权:©️Nong-Yi(以下内容为原作者原创,转载请注明出处)

改进(所有更新内容均在原作者基础上增加)

  • ✅增加了随机UA头,构建了Cookie池(jd_cookies.py),为爬取多种商品做好防风控
  • ✅增加了data目录,用于存储爬取到的数据
  • ✅将每一条评论构建为字典,append到列表中,最后将列表写入CSV文件
  • ❗❗(特别注意)经本人多次测试,最终爬取的单个商品评论数据中有重复部分,建议使用drop_duplicates()去重,不知道的可自行百度,非常简单
  • ❗❗(特别注意)cookie不稳定,容易过期或被服务器拒绝,导致报KeyError:'maxPage'错误。最好不要让cookie池中的账号退出登录,也可人工点击页面的“商品评价”处,手动过服务器的验证(旋转验证码)
  • ❗❗(特别注意)单个商品规格的评论可能会报KeyError:'comments'错误,目前暂未解决
  • 🚩TODO:
    • 1、增加代理池
    • 2、优化各个函数,重写变量的命名
    • 3、使用rich库代替tqdm模块

模块

模块使用了re、httpx这些库

httpx模块是一个可以发送网络请求的模块,与requests库相似但有一个requests库没有的功能,就是httpx可以发送http2协议的请求

re库是一个正则表达式的一个工具

关于这两个库大家可以去官网了解我就不过多介绍了

# 安装方式(安装了可以跳过):
pip install httpx
# 上面安装的httpx没办法使用http2请求我们还需要继续安装下面这个
pip install httpx[http2]
# 这样就可以使用http2协议进行请求了
pip install re

作者的网站地址:www.nong-yi.cn