爬虫的实现由以下策略组成: 指定页面下载的选择策略 检测页面是否改变的重新访问策略 定义如何避免网站过度访问的约定性策略 如何部署分布式网络爬虫的并行策略 选择策略 链接跟随限制 爬虫可能只想搜索HTML页面而避免其他MIME 类型。为了只请求HTML资源,爬虫在抓取整个以GET方式请求的资源之前,通过创建HTTP的HEAD请求来决定网络资源的MIME类型。为了避免发出过多的请求,爬虫会检查URL和只请求那些以某些字符(如.html, .htm, .asp, .aspx, .php, .jsp, .js