爬虫爬取/读取本地网页

写爬虫当碰到的网站网页结构过于复杂时
为了编写恰当的匹配规则(Xpath、Css等)并验证
为了避免此次修改的匹配规则又影响到了的上次的规则,顾此失彼
我们可能会对同一网站进行多次的全站爬取
但是我们这种行为,会对目标网站服务器造成过大压力
因此,我们可以将网页爬取到本地,保存成本地 html 文件
使用本地 html 文件调试验证匹配规则

问题来了,怎么爬取或者说是读取本地的 html 文件呢?
直接写文件路径,亦或者是绝对路径?
当然不是!

本地 html 在爬虫中构造的 url 应为

file://127.0.0.1/local_file_abspath

如 Linux 类系统下

file://127.0.0.1/home/.../test.html

如 Windows 类系统下(爬虫程序需和 html 处于同一盘符下)

file://127.0.0.1/D:\lzc\MyProjects\test.html
Table of Contents