当前位置:  开发笔记 > 后端 > 正文

爬虫与刮刀

如何解决《爬虫与刮刀》经验,为你挑选了1个好方法。

有人可以在范围和功能方面区分爬虫和刮刀.



1> Jerry Coffin..:

爬虫获取网页 - 即,给定起始地址(或起始地址集)和一些条件(例如,要深入的链接数量,要忽略的文件类型),它从起始点下载链接到的任何内容( S).

刮刀将已下载的页面或更一般意义上的数据格式化为显示,并(尝试)从这些页面中提取数据,以便它(例如)可以存储在数据库中并根据需要进行操作.

根据您使用结果的方式,抓取可能会侵犯信息所有者和/或有关网站使用的用户协议的权利(在某些情况下,抓取也会违反后者).许多站点在其根目录中包含一个名为robots.txt的文件(即具有URL http://server/robots.txt),以指定爬虫如何(以及如果)处理该站点 - 特别是,它可以列出爬虫不应尝试访问的(部分)URL .如果需要,可以根据爬虫(用户代理)单独指定这些.

推荐阅读
oDavid_仔o_880
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有