有人可以在范围和功能方面区分爬虫和刮刀.
爬虫获取网页 - 即,给定起始地址(或起始地址集)和一些条件(例如,要深入的链接数量,要忽略的文件类型),它从起始点下载链接到的任何内容( S).
刮刀将已下载的页面或更一般意义上的数据格式化为显示,并(尝试)从这些页面中提取数据,以便它(例如)可以存储在数据库中并根据需要进行操作.
根据您使用结果的方式,抓取可能会侵犯信息所有者和/或有关网站使用的用户协议的权利(在某些情况下,抓取也会违反后者).许多站点在其根目录中包含一个名为robots.txt的文件(即具有URL http://server/robots.txt
),以指定爬虫如何(以及如果)处理该站点 - 特别是,它可以列出爬虫不应尝试访问的(部分)URL .如果需要,可以根据爬虫(用户代理)单独指定这些.