2049bbs » 技术

本人开发的全站爬虫\网站备份工具

By hello_chris at 2019-12-19

本项目的缘起是由于查询 文化大革命时期 中使用到的大字报及官方通告等宣传物料，于是通过 Google 发现 https://ccradb.appspot.com/ 和无产阶级图书馆分别提供全文阅览及光盘版下载，但考虑到第一个站 appspot 已被 GFW 认证，而第二个站则需要 Windows 操作系统(本人Macos)，使用和查询并不方便，于是想到了将其全站下载并开放在 Github 方便其他人查询使用。

因此诞生了本项目，如果熟悉 Python 和 Scrapy，写一个爬虫，只需要十几行代码，耗时半小时到若干小时不等，再配合 Gohugo 等静态网站生成器，可以很方便的利用 Github Pages 生成一个全新的没有被 GFW 认证的网站。

https://github.com/speechfree/wholesite-crawler

通过此工具爬取的整站目前有如下几个：

ccradb 中国文化大革命文库 https://speechfree.github.io/cultural-revolution-database/
xys 新语丝 https://speechfree.github.io/xys/
letscorp 墙外楼 https://speechfree.github.io/letscorp/

欢迎各位添加新的爬虫

全站, 爬虫, 备份, 网站, 工具

共 21 条回复

楼主有心人呀

小二 at 2019-12-19

关于文革资料，推荐备份一下香港中文大学中国研究服务中心主办的民间历史

http://mjlsh.usc.cuhk.edu.hk/Default.aspx

新闻实验室 at 2019-12-20

另外，既然楼主能生成Gohugo子站，不妨搜集一些优秀的网络大V作品，比方Reddit/u/Spinkcat的发言很不错，如果能把下面的文档按主题切分成文章，做一个/CNRedditors 挂在你下面就好了，现在这个文档太大根本打不开。

https://gitlab.com/redditcollection/chinese-redditors/blob/master/Spinkcat_comments.md

如果这个repo的楼主能把抓取reddit内容的代码开源就好了，可以搜集一些优秀的答主

新闻实验室 at 2019-12-20

哇感谢感谢，实用工具

令狐冲 at 2019-12-20

还有pin站早期的优秀答主的发言像利维坦、Merlin（Pepperonie）的也可以搜集一些，直接从它的公开的数据库里面提取即可。总觉得有些优秀答主现在散了挺可惜的，想搜集起来做个档案。Spinkcat一直在产出内容，非常赏心悦目。

新闻实验室 at 2019-12-20

@新闻实验室 #5 提供的内容非常不错，不过本人时间和精力有限很难兼顾多个方向。

你提到的 Spinkcat 在 Reddit 的留言有了解，但是这部分内容属于个人创作，需要向对方申请版权。

本人项目中的 1 内容虽然是由海外学者整理出版，在某些学校图书馆可以公开查阅，但本人认为其设计的事件对中国影响非常之大，且若干在线资源被 GFW 认证，大陆若想了解相关的资源颇有难度，因此花时间整理。

对于本人整理的 2，3 同理，目前更着重于科学研究价值较大、国内被和谐或在国内不易访问的内容。

当然，对于你提到的一些内容和方向，本人愿意提供技术支持，一起协作完成。

另：你提到的 reddit 连接可以点 load it anyway 或其他两个选项均可以查看，如若不可还可以把项目 clone 到本地查看。

hello_chris at 2019-12-20

@新闻实验室 #5 六月之前还是有不少大手写的东西可看的。大约18年底到19年年初附近。

如果要抓内容可先抓特定时间段的某些id，但最好是先格式化下，有不少好的回答都淹没在很多普通问题下，而且也不是我们认证过的那些id，很多都是匿名的。

有的人说的内容到年底年中都得到了验证

sorrysorrysorry at 2019-12-20

@新闻实验室 #5 刚用google搜索站内了下，发现有的话题讨论已经被删除或者隐藏了，以前我都是截图保存有用或有意思的回答的，现在看，真正包含信息量的讨论还真的不能人多，人一多说真话的人就会走。

sorrysorrysorry at 2019-12-20

不过可以比较出来 duckduckgo的搜索质量是非常之低。大部分内容都index不到。

sorrysorrysorry at 2019-12-20

@sorrysorrysorry #7 @hello _chris #6 谢谢提醒，版权问题我觉得公共论坛的发言本身就是属于公共领域，只要引用注明出处和ID应该问题不大，版权还是原作者的，没有授权的话跟CDT差不多，虽然然CDT也常被人吐嘈。

新闻实验室 at 2019-12-21

@hello _chris #6 能否把www.cnd.org备份一下？30岁的网站，真正的互联网活化石，里头宝很多，但网站安全性实在糟心。

CND at 2020-01-10

都不知道网站是什么语言写的， http://museums.cnd.org/CR/ZK16/cr878.gb.html 随便打开一个文章链接，其源代码基本上等于看到的文字。

不过我还蛮欣赏华夏文摘的极简纯文字风，做博客模版的大神可以尝试复兴一下这种风格

CND at 2020-01-10

@sorrysorrysorry #7 我确实有想过把新品葱老内容按照id整一下，因为刚好保存了一份未被篡改的数据。

小二 at 2020-01-10

@CND #11 @CND #12 啊，感觉很有价值，希望有人能archive一下

小二 at 2020-01-10

@小二 #13 只是自己去分拣材料太费精力了. 完全发出来也只是给大数据挖掘公司提供数据素材最好是一周一更新不要先发最优质的内容

sorrysorrysorry at 2020-01-12

我现在觉得中共完全可以搜集到地球所有公开的政治文本，然后用深度学习直接作出一个五毛原型ai

很多有用的数据还不如不发，因为读者群体还不够大

sorrysorrysorry at 2020-01-12

@sorrysorrysorry #15 又不是人肉搞，把记得的几个 id 往 SQL 里一扔，结果就出来了。反正也没几个有价值的 id。

小二 at 2020-01-12

可否备份一下 https://www.chinarightsia.org/ 中国权利在行动？

小二 at 2020-02-02

https://wiki.snowblossom.org/index.php/Channels
这个上也适合做各个网站镜像，适合gohugo。也很简单

tptb at 2020-02-03

希望用这个的人多一点 https://wiki.snowblossom.org/index.php/Channels
偏好用这

tptb at 2020-02-03

独立中文笔会应该备份一下，挂到github上做一个免翻墙离线版。

riotim at 2020-02-05

关于

2049BBS 的自动更新镜像站，免翻墙访问。

Github Repo 离线浏览 RSS订阅节点订阅功能帮助

源站地址（已被墙）

https://2049bbs.xyz/t/2316

节点

问答人物影视分享创造站务使用指南 Geek 2049 外段梯子树洞时政垃圾场无人区技术水分享发现读书音乐博客