创建时间：2019.12.19 爬虫, scrapy, requests

爬虫爬取/读取本地网页

写爬虫当碰到的网站网页结构过于复杂时
为了编写恰当的匹配规则（Xpath、Css等）并验证
为了避免此次修改的匹配规则又影响到了的上次的规则，顾此失彼
我们可能会对同一网站进行多次的全站爬取
但是我们这种行为，会对目标网站服务器造成过大压力
因此，我们可以将网页爬取到本地，保存成本地 html 文件
使用本地 html 文件调试验证匹配规则

问题来了，怎么爬取或者说是读取本地的 html 文件呢？
直接写文件路径，亦或者是绝对路径？
当然不是！

本地 html 在爬虫中构造的 url 应为

file://127.0.0.1/local_file_abspath

如 Linux 类系统下

file://127.0.0.1/home/.../test.html

如 Windows 类系统下（爬虫程序需和 html 处于同一盘符下）

file://127.0.0.1/D:\lzc\MyProjects\test.html