有没有现成的工具能够完整抓取微信公众号内容-含图片

By 小二 at 2020-01-07

因为微信公众号的图片是延迟加载,只有出现在屏幕窗口时图片才会显示,导致 archive.org 等网站无法保存照片,貌似使用 Selenium 等工具可以实现模拟浏览,但懒癌还是想问问有没有现成的工具,可以解决这个图片滑动加载的问题。

微信, 抓取, 现成, 有没有, 公众


国内版权保护很差,所以网站都专门设计这种延迟就是为了防止爬虫和搜索引擎。

Chrome上有一可以将网页保存成PNG或PDF文件的插件,保存的内容就是浏览器里显示的网页内容。

https://www.printfriendly.com/extensions/chrome

https://chrome.google.com/webstore/detail/take-webpage-screenshots/mcbpblocgmgfnpjjppndjkmgjaogfceg

chinatimeline at 2020-01-08
1

1,自己浏览时可以用userscript预加载图片

setTimeout(function(){
    document.querySelectorAll("img.img_loading").forEach(i=>{
        i.classList.remove("rich_pages");
        i.src = i.dataset.src;
    })
}, 500);

2,archive.md支持公众号图片,但这站背景存疑

3,本地备份可用SingleFile

以上都是针对个人的,我没有类似ArchiveTeleBot的自动化需求

auntsam at 2020-01-08
2

@auntsam #2 archive最近添加了限制,会有验证码,已经不能用于bot了。single file cli也不能避免滑动加载图片的问题。你说的方案一我研究下,感谢。

小二 at 2020-01-08
3

@chinatimeline #1 这项技术是用来提高页面加载速度和节省流量的,反爬一般不在这上面做文章。

小二 at 2020-01-08
4

使用 https://github.com/Y2Z/monolith 完美解决,可以保存微信图片。

效果如下

http://206.189.252.32:8083/

小二 at 2020-01-11
5

@小二 #5 感謝。不過我以前一直都是用在某個論壇上分享的工具小軟件保存微信文章的。

https://i.ijrou.com/p/story/WeChatDownload.html

它會生成一個文件夾存所有圖片,還有一個本地html。希望對您可能有用。

wechatdownload

32WF at 2020-01-11
6

@32WF #7 感谢,你的这个工具对新手很好用,毕竟有可视化界面。

小二 at 2020-01-12
8