Skip to content

爬取百度贴吧(指定吧名、起始页数/重点页数、日志输出)

Notifications You must be signed in to change notification settings

Viper373/BaiduTieba

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

百度贴吧爬虫

这是一个基于 Python 的百度贴吧爬虫,用于获取指定关键词的贴吧帖子信息并存储到 CSV 文件中。

项目结构

  • 🚀 tieba.py:主要的爬虫脚本,用于爬取贴吧帖子信息。
  • 🎂 config.py:配置文件,用于设置搜索关键词、爬取起始页数和终点页数。
  • 🔗 requirements.txt:依赖的 Python 包列表。
  • 📦 data/{吧名}.csv:存储爬取到的数据。
  • 📩 logs/{吧名}.log:存储爬取过程中的日志信息。

使用方法

  • 1.⚡安装依赖:

    • 项目版本:Python 3.10.7
    pip install -r requirements.txt
  • 2.🌊配置参数:

    在 config.py 中设置需要爬取的贴吧关键词 KW、爬取起始页数 ST 和终点页数 PN。

  • 3.🚄运行脚本:

    python main.py

    脚本会开始爬取贴吧帖子信息,并将结果存储到 CSV 文件中。

  • 4.🌈功能特点:

    • ✅ 使用了 fake_useragent 库生成随机 User-Agent,增加了爬虫的隐蔽性。
    • ✅ 使用了 rich 库提供的进度条功能,使爬取过程更加可视化。
    • ✅ 支持设置爬取的起始页数和终点页数,灵活控制爬取范围。
    • ✅ 使用了多个账号的cookie构建cookie池,提高反爬能力,增加数据获取的健壮性。
  • 5.🚩注意事项:

    • 🚧爬取过程中请遵守网站的规则,不要过于频繁地进行请求,以免被封禁 IP。
    • 🚥请勿将爬取到的数据用于违法或商业用途,仅限个人学习和研究使用。

About

爬取百度贴吧(指定吧名、起始页数/重点页数、日志输出)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages