https://web.thuhole.com/##274045 宣传一波自己写的教参平台爬虫,可以把书一页一页下载下来,欢迎使用~ https://github.com/i207M/reserves-lib-tsinghua-downloader 欢迎Star~ (4-05 20:55:47 666关注 69回复)
[Alice] 教参平台是干嘛的?
[洞主] Re Alice: http://reserves.lib.tsinghua.edu.cn/
[Bob] 之前不是有dy提示涉及知识产权的尽量别公开
[Carol] 按照这个代码下载不到40页就停止工作了……
[Carol] Re Carol: 啊这是因为Carol自己挂了VPN,关了以后速度很快且能下全
[Dave] 随手转化成了.exe 其实没啥技术含量,哈哈哈哈),可能对未安装Python环境的同学方便些。 链接:https://cloud.erbanku.com/wl/?id=K7yZ6Cv3QpeKoW31AX5HwwQkDrOwYFAd
[Eve] yeah!
[洞主] Re Bob: 是的。我没有也不建议在网上传播下载后的内容。代码仅供学习之用。
[洞主] Re Dave: 谢谢Dave. 等我有空了用Github Actions+Nuitka实现一下持续集成
[Eve] 之前还想着这个挺不好爬的,原来手机版可以直接得到图片网址
[Eve] 啊我看见网址里有mobile以为是手机版访问得到的地址,刚试了一下并不是。。。想请教dz怎么得到的图片的网址呢
[Francis] 其实用IDM下就可以
[Francis] Re Francis: 因为其实就是按编号下载对应地址的图片 IDM是有这样的功能的
[Grace] 手动收藏
[Eve] Re Eve: 开发者工具里面的network里看到了,谢谢dz
[Hans] 用 aiohttp + asyncio + uvloop 改成异步的应该会更快,不过有点不讲武德hhh
[Isabella] 谢谢dz
[洞主] Re Eve: 可以在浏览器开发者工具的Network中找到。。不过dz用的方法是直接看工具里的Resource
[洞主] Re Eve: ahh好像电脑访问都是/moblie/
[洞主] Re Hans: 确实,不过现在的速度已经710mb/s,个人使用我感觉没必要多线程,
[洞主] Re Grace: :)
[洞主] Re Isabella: :)
[洞主] Re Hans: 有空了我新建个branch搞一下,真 · 学习Python的多线程
[Jason] github上一年前就有同学已经做过这个项目了,并且可以直接转成pdf很方便
[Jason] 附上地址https://github.com/lflame/TsinghuaBookCrawler
[Jason] 没有其他意思,鼓励dz分享,只是给各位同学提供一些参考
[洞主] Re Jason: 谢谢分享我之前没有搜到这个项目((如果搜到了可能我就不造轮子了。但是轮子造出来之后还是蛮有成就感的,我稍后会把链接附在README里。
[洞主] 思考了一下,可能我的项目优点在,简单小巧,与不需要传输账号密码吧。
[Kate] Re Jason: 文科生请求有没有大佬把这个也做成exe
[Louis] 输入URL回车之后应该干嘛呀qwq小白哭哭
[Dave] Re Kate: 有呀,我做成了exe,前面回复有链接
[Dave] Re Kate: https://cloud.erbanku.com/wl/?id=K7yZ6Cv3QpeKoW31AX5HwwQkDrOwYFAd
[Dave] Re Louis: 点ENTER就可以了,啥也不用干,可以在脚本同目录找到下载文件
[Kate] Re Dave: 啊不是的,我指的是jason发的那个也做成exe
[洞主] 会有图中的提示,说明现在爬取的情况。其中id指章节编号。爬取完成之后也会有提示。
可以开任务管理器看当前的网速就知道它有没有在摸鱼了。 [图片]
[Louis] Re Dave: 铜球jason那个链接的exe
[Dave] Re Kate: 那个脚本我下载试了一下,没法用,不能下载,估计有bug
[Kate] 非常好用,感谢dz和Dave的贡献,愿你们每天都顺利
[Margaret] Re Dave: 我刚刚试用了https://github.com/lflame/TsinghuaBookCrawler,没什么问题呀
[Nathan] 同样的原理适用于文泉学堂吗?(据说反爬虫做得挺强的)
[Olivia] Re Nathan: https://github.com/liang2kl/wqxuetang-downloader
我写的一个文泉学堂的插件,可参考
[Paul] Re Olivia: 请问olivia,下载的东西保存在了哪里呀,好像没看见路径选择的窗口,下载历史也没有
[Olivia] Re Paul: 刷新一下
[Queen] mac可以使用吗
[洞主] 更新:
我暑假里把代码又重构了一遍,现在的爬虫支持:
- 自动生成PDF
- 并行下载(目前仅支持某些书籍)
- 改善图像文件大小(优雅地)
- 命令行参数(可选)
- 更好的交互体验
现在双击exe就可以运行啦~
GitHub仓库地址:https://github.com/i207M/reserves-lib-tsinghua-downloader [洞主] 如果访问GitHub有困难的小伙伴,欢迎使用下面的下载链接(我传到蓝奏云上了,密码都是1234):
exe可执行文件:https://wwe.lanzoui.com/iZj86sfeqve Python源代码:https://wwe.lanzoui.com/imywwsfeqjc [洞主] 考虑到访问GitHub存在困难,把使用方法发出来:
解压,并运行downloader
,输入(即复制+粘贴)网站阅读全文
之下的链接地址(如图中标黄的位置)。程序会自动爬取当前章节以下的所有章节。
程序会将图片保存在./clawed
下,并自动生成PDF。
此程序无需登录即可使用。
Q: 图片压缩的 quality ratio
怎样设置?
A: 范围[1, 96]:其中96为不压缩,[1, 95]从最差到最佳。
Q: 下载的章节不全?
A: 这是因为此图书的目录编号不连续。请再次运行程序并输入下一位置的章节链接。通常不会出现此情况。
Q: 分享一点高级玩法?
A: 使用学校提供的正版福昕编辑器可以进行OCR文字识别。 [图片] [洞主] Re Queen: 目前dz没有Mac设备(可能很快就会有了),所以现在没法打包成dmg。如果您的动手能力比较强,可以使用Python运行源代码中的downloader. py文件 [洞主] 谢谢管理员的推荐。 欢迎在GitHub上点一个Star~当然也欢迎Issue/PR,比方说协助测试一下MacOS的打包:) [Richard] Re 洞主: 谢谢洞主,但是蓝奏云下载显示有病毒,下载的压缩包都直接删除了,换了几个浏览器都是这样…… [Richard] Re Richard: 不过github上下载的没问题 [洞主] Re Richard: emm玄学误报了。可以考虑Python运行源代码 [Susan] 啊蟹蟹dz,非常好用! [Thomas] 一字班求问怎么下载? [Uma] Re Thomas: 看前面dz的回复,用蓝奏云那个链接下载(亲测好用! [Vivian] Re 洞主: dz!求一个mac版🥲 [Winnie] Re 洞主: 想求教一下dz顺序不对可以怎么解决,另外万分感谢dz
[洞主] Re Winnie: 啊啊,我今天恰好也发现这个bug了。已经修复,马上发出来。 [洞主] # v2.0.2
修复了多线程下载时,PDF页码乱序的问题。
https://wwe.lanzoui.com/i4OQZu0kkje 密码:1234 [洞主] Re Vivian: 呜这么多人使用。我有空了就研究一下怎么生成Mac的可执行文件 [洞主] Mac版已做好!
使用方法:解压后双击downloader
,然后就会弹出窗口。之后的使用方法和Windows相同。
请注意,第一次运行时会有~10s的加载时间
下载:https://wwe.lanzoui.com/iEbn7u0notg 密码:1234 [洞主] 可能还有一点小问题,可以见 #478681
等我明天继续修复!晚安 [Xander] 大佬请收下我的膝盖!!! [Yasmine] 求问这个情况可能是什么原因?有啥解决办法 [图片] [Grace] 这个怎么用呀,小白表示不会 [Grace] 点开以后要下载哪个,下载下来的任何东西点开都闪退 [洞主] Re Yasmine: 额,从图片中我能获得的信息太少了... [洞主] Re Grace: 不妨先看看上面的使用说明? [洞主] # 新版发布
请见#482199
以后不用翻阅这么多条评论了!