百度贴吧爬虫

这是一个基于 Python 的百度贴吧爬虫，用于获取指定关键词的贴吧帖子信息并存储到 CSV 文件中。

项目结构

1.⚡安装依赖：
- 项目版本：Python 3.10.7
```
pip install -r requirements.txt
```
2.🌊配置参数：

在 config.py 中设置需要爬取的贴吧关键词 KW、爬取起始页数 ST 和终点页数 PN。
3.🚄运行脚本：
```
python main.py
```
脚本会开始爬取贴吧帖子信息，并将结果存储到 CSV 文件中。
4.🌈功能特点：
- ✅ 使用了 fake_useragent 库生成随机 User-Agent，增加了爬虫的隐蔽性。
- ✅ 使用了 rich 库提供的进度条功能，使爬取过程更加可视化。
- ✅ 支持设置爬取的起始页数和终点页数，灵活控制爬取范围。
- ✅ 使用了多个账号的cookie构建cookie池，提高反爬能力，增加数据获取的健壮性。
5.🚩注意事项：
- 🚧爬取过程中请遵守网站的规则，不要过于频繁地进行请求，以免被封禁 IP。
- 🚥请勿将爬取到的数据用于违法或商业用途，仅限个人学习和研究使用。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
log		log
README.md		README.md
config.py		config.py
data_clean.py		data_clean.py
main.py		main.py
requirements.txt		requirements.txt
rich_example.py		rich_example.py
word2Vec.py		word2Vec.py