当前位置:  开发笔记 > 编程语言 > 正文

Webcrawler,反馈?

如何解决《Webcrawler,反馈?》经验,为你挑选了1个好方法。

嘿伙计们,每隔一段时间我就需要从网站自动化数据收集任务.有时我需要一堆来自目录的URL,有时候我需要一个XML站点地图(是的,我知道有很多软件用于那个和在线服务).

无论如何,根据我之前的问题,我写了一个可以访问网站的小型网络浏览器.

基本爬虫类可以轻松快速地与一个网站进行交互.

覆盖"doAction(String URL,String content)"以进一步处理内容(例如,存储它,解析它).

概念允许爬行器的多线程.所有类实例共享已处理和排队的链接列表.

可以建立JDBC连接以在数据库中存储链接,而不是跟踪对象内的已处理链接和排队链接.

但是,目前一次仅限于一个网站,可以通过添加externalLinks堆栈并在适当时添加它来扩展.

JCrawler旨在用于快速生成XML站点地图或解析网站以获取所需信息.它很轻巧.

如果有上述限制,这是编写爬虫的好/正常方式吗?任何输入都会极大地帮助:)

http://pastebin.com/VtgC4qVE - Main.java
http://pastebin.com/gF4sLHEW - JCrawler.java
http://pastebin.com/VJ1grArt - HTMLUtils.java



1> BalusC..:

您的抓取工具似乎不会以任何方式尊重robots.txt并使用假User-Agent字符串来展示它就像是一个webbrowser.这可能导致将来出现法律问题.考虑到这一点.


"将来"是这里的关键词.违反robots.txt文件从未在法庭上被视为非法.这是一个宝贵的先例,但Wayback Machine参与了2007年可能引起关注的行动:http://www.theregister.co.uk/2007/07/26/wayback_firm_suit/
推荐阅读
赛亚兔备_393
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有