如何实现“即时自动抓取自己所浏览的网页源代码”

By phoenix000 at 2018-06-14

Hi,大家好~

想问一下,是否有可能实现即时自动抓取自己所浏览网页的源代码呢?例如说我现在打开douban,想要立刻抓下来目前我正在看的这个页面的HTML源代码,并且保存到本机端。以便于之后分析自己的浏览行为。

我想过用浏览器的浏览记录去重新爬,但是很多现在太多网站是即时动态的了,晚个几秒,看到的内容就会不一样。有什么办法能一边浏览一边下载这个页面呢?想请教一下这边的大家。

感谢各位

网页, 源代码


浏览器的保存页面功能了解一下

zxczxczxc at 2018-06-14
1

键盘快捷键应该是:Ctrl + S

zxczxczxc at 2018-06-14
2

@zxczxczxc 这个可以自动调用吗?

phoenix000 at 2018-06-14
3

以便于之后分析自己的浏览行为。

能否说细一点?分析啥?是浏览的网站,还是自己的行为?如果是想知道自己浏览了哪些网站,直接分析浏览器的历史记录就可以了,这方面的插件很多。

小二 at 2018-06-14
4

@Ciao 是想分析自己浏览的网页内容。历史记录的问题是,例如我刷FB,历史记录只会留下FB的网址,但是我想保存所有我在fb上看到的动态。

phoenix000 at 2018-06-14
5

Python写一个网页代理,新建一个数据库,把接受的数据全部写入数据库

wolegequ at 2018-06-14
6

@wolegequ 感谢,是指用python写一个代理服务器吗?类似socks5,只是把服务器的响应再自己保存一份。

phoenix000 at 2018-06-14
7

https://www.raymond.cc/blog/websitesniffer-captures-files-downloaded-from-internet/

小二 at 2018-06-14
8

@Ciao 多谢,我来研究研究

phoenix000 at 2018-06-14
9