Skip to content

Latest commit

 

History

History
134 lines (109 loc) · 7.37 KB

教参平台爬书.md

File metadata and controls

134 lines (109 loc) · 7.37 KB

https://web.thuhole.com/##274045 宣传一波自己写的教参平台爬虫,可以把书一页一页下载下来,欢迎使用~ https://github.com/i207M/reserves-lib-tsinghua-downloader 欢迎Star~ (4-05 20:55:47 666关注 69回复)

[Alice] 教参平台是干嘛的? [洞主] Re Alice: http://reserves.lib.tsinghua.edu.cn/ [Bob] 之前不是有dy提示涉及知识产权的尽量别公开 [Carol] 按照这个代码下载不到40页就停止工作了…… [Carol] Re Carol: 啊这是因为Carol自己挂了VPN,关了以后速度很快且能下全 [Dave] 随手转化成了.exe 其实没啥技术含量,哈哈哈哈),可能对未安装Python环境的同学方便些。 链接:https://cloud.erbanku.com/wl/?id=K7yZ6Cv3QpeKoW31AX5HwwQkDrOwYFAd [Eve] yeah! [洞主] Re Bob: 是的。我没有也不建议在网上传播下载后的内容。代码仅供学习之用。 [洞主] Re Dave: 谢谢Dave. 等我有空了用Github Actions+Nuitka实现一下持续集成 [Eve] 之前还想着这个挺不好爬的,原来手机版可以直接得到图片网址 [Eve] 啊我看见网址里有mobile以为是手机版访问得到的地址,刚试了一下并不是。。。想请教dz怎么得到的图片的网址呢 [Francis] 其实用IDM下就可以 [Francis] Re Francis: 因为其实就是按编号下载对应地址的图片 IDM是有这样的功能的 [Grace] 手动收藏 [Eve] Re Eve: 开发者工具里面的network里看到了,谢谢dz [Hans] 用 aiohttp + asyncio + uvloop 改成异步的应该会更快,不过有点不讲武德hhh [Isabella] 谢谢dz [洞主] Re Eve: 可以在浏览器开发者工具的Network中找到。。不过dz用的方法是直接看工具里的Resource [洞主] Re Eve: ahh好像电脑访问都是/moblie/ [洞主] Re Hans: 确实,不过现在的速度已经710mb/s,个人使用我感觉没必要多线程, [洞主] Re Grace: :) [洞主] Re Isabella: :) [洞主] Re Hans: 有空了我新建个branch搞一下,真 · 学习Python的多线程 [Jason] github上一年前就有同学已经做过这个项目了,并且可以直接转成pdf很方便 [Jason] 附上地址https://github.com/lflame/TsinghuaBookCrawler [Jason] 没有其他意思,鼓励dz分享,只是给各位同学提供一些参考 [洞主] Re Jason: 谢谢分享我之前没有搜到这个项目((如果搜到了可能我就不造轮子了。但是轮子造出来之后还是蛮有成就感的,我稍后会把链接附在README里。 [洞主] 思考了一下,可能我的项目优点在,简单小巧,与不需要传输账号密码吧。 [Kate] Re Jason: 文科生请求有没有大佬把这个也做成exe [Louis] 输入URL回车之后应该干嘛呀qwq小白哭哭 [Dave] Re Kate: 有呀,我做成了exe,前面回复有链接 [Dave] Re Kate: https://cloud.erbanku.com/wl/?id=K7yZ6Cv3QpeKoW31AX5HwwQkDrOwYFAd [Dave] Re Louis: 点ENTER就可以了,啥也不用干,可以在脚本同目录找到下载文件 [Kate] Re Dave: 啊不是的,我指的是jason发的那个也做成exe [洞主] 会有图中的提示,说明现在爬取的情况。其中id指章节编号。爬取完成之后也会有提示。 可以开任务管理器看当前的网速就知道它有没有在摸鱼了。 [图片] [Louis] Re Dave: 铜球jason那个链接的exe [Dave] Re Kate: 那个脚本我下载试了一下,没法用,不能下载,估计有bug [Kate] 非常好用,感谢dz和Dave的贡献,愿你们每天都顺利 [Margaret] Re Dave: 我刚刚试用了https://github.com/lflame/TsinghuaBookCrawler,没什么问题呀 [Nathan] 同样的原理适用于文泉学堂吗?(据说反爬虫做得挺强的) [Olivia] Re Nathan: https://github.com/liang2kl/wqxuetang-downloader 我写的一个文泉学堂的插件,可参考 [Paul] Re Olivia: 请问olivia,下载的东西保存在了哪里呀,好像没看见路径选择的窗口,下载历史也没有 [Olivia] Re Paul: 刷新一下 [Queen] mac可以使用吗 [洞主] 更新:

我暑假里把代码又重构了一遍,现在的爬虫支持:

  • 自动生成PDF
  • 并行下载(目前仅支持某些书籍)
  • 改善图像文件大小(优雅地)
  • 命令行参数(可选)
  • 更好的交互体验

现在双击exe就可以运行啦~

GitHub仓库地址:https://github.com/i207M/reserves-lib-tsinghua-downloader [洞主] 如果访问GitHub有困难的小伙伴,欢迎使用下面的下载链接(我传到蓝奏云上了,密码都是1234):

exe可执行文件:https://wwe.lanzoui.com/iZj86sfeqve Python源代码:https://wwe.lanzoui.com/imywwsfeqjc [洞主] 考虑到访问GitHub存在困难,把使用方法发出来:

Usage

image-20210308204615230

解压,并运行downloader,输入(即复制+粘贴)网站阅读全文之下的链接地址(如图中标黄的位置)。程序会自动爬取当前章节以下的所有章节。

程序会将图片保存在./clawed下,并自动生成PDF。

此程序无需登录即可使用

Q&A

Q: 图片压缩的 quality ratio 怎样设置?

A: 范围[1, 96]:其中96为不压缩,[1, 95]从最差到最佳。

Q: 下载的章节不全?

A: 这是因为此图书的目录编号不连续。请再次运行程序并输入下一位置的章节链接。通常不会出现此情况。

Q: 分享一点高级玩法?

A: 使用学校提供的正版福昕编辑器可以进行OCR文字识别。 [图片] [洞主] Re Queen: 目前dz没有Mac设备(可能很快就会有了),所以现在没法打包成dmg。如果您的动手能力比较强,可以使用Python运行源代码中的downloader. py文件 [洞主] 谢谢管理员的推荐。 欢迎在GitHub上点一个Star~当然也欢迎Issue/PR,比方说协助测试一下MacOS的打包:) [Richard] Re 洞主: 谢谢洞主,但是蓝奏云下载显示有病毒,下载的压缩包都直接删除了,换了几个浏览器都是这样…… [Richard] Re Richard: 不过github上下载的没问题 [洞主] Re Richard: emm玄学误报了。可以考虑Python运行源代码 [Susan] 啊蟹蟹dz,非常好用! [Thomas] 一字班求问怎么下载? [Uma] Re Thomas: 看前面dz的回复,用蓝奏云那个链接下载(亲测好用! [Vivian] Re 洞主: dz!求一个mac版🥲 [Winnie] Re 洞主: 想求教一下dz顺序不对可以怎么解决,另外万分感谢dz

[洞主] Re Winnie: 啊啊,我今天恰好也发现这个bug了。已经修复,马上发出来。 [洞主] # v2.0.2

修复了多线程下载时,PDF页码乱序的问题。

https://wwe.lanzoui.com/i4OQZu0kkje 密码:1234 [洞主] Re Vivian: 呜这么多人使用。我有空了就研究一下怎么生成Mac的可执行文件 [洞主] Mac版已做好!

使用方法:解压后双击downloader,然后就会弹出窗口。之后的使用方法和Windows相同。 请注意,第一次运行时会有~10s的加载时间

下载:https://wwe.lanzoui.com/iEbn7u0notg 密码:1234 [洞主] 可能还有一点小问题,可以见 #478681

等我明天继续修复!晚安 [Xander] 大佬请收下我的膝盖!!! [Yasmine] 求问这个情况可能是什么原因?有啥解决办法 [图片] [Grace] 这个怎么用呀,小白表示不会 [Grace] 点开以后要下载哪个,下载下来的任何东西点开都闪退 [洞主] Re Yasmine: 额,从图片中我能获得的信息太少了... [洞主] Re Grace: 不妨先看看上面的使用说明? [洞主] # 新版发布

请见#482199

以后不用翻阅这么多条评论了!