3赞

Webcrawler,反馈？

作者：赛亚兔备_393 | 2023-07-09 09:31

如何解决《Webcrawler,反馈？》经验，为你挑选了1个好方法。

嘿伙计们,每隔一段时间我就需要从网站自动化数据收集任务.有时我需要一堆来自目录的URL,有时候我需要一个XML站点地图(是的,我知道有很多软件用于那个和在线服务).

无论如何,根据我之前的问题,我写了一个可以访问网站的小型网络浏览器.

基本爬虫类可以轻松快速地与一个网站进行交互.

覆盖"doAction(String URL,String content)"以进一步处理内容(例如,存储它,解析它).

概念允许爬行器的多线程.所有类实例共享已处理和排队的链接列表.

可以建立JDBC连接以在数据库中存储链接,而不是跟踪对象内的已处理链接和排队链接.

但是,目前一次仅限于一个网站,可以通过添加externalLinks堆栈并在适当时添加它来扩展.

JCrawler旨在用于快速生成XML站点地图或解析网站以获取所需信息.它很轻巧.

如果有上述限制,这是编写爬虫的好/正常方式吗？任何输入都会极大地帮助:)

http://pastebin.com/VtgC4qVE - Main.java
http://pastebin.com/gF4sLHEW - JCrawler.java
http://pastebin.com/VJ1grArt - HTMLUtils.java

1> BalusC..：

您的抓取工具似乎不会以任何方式尊重robots.txt并使用假User-Agent字符串来展示它就像是一个webbrowser.这可能导致将来出现法律问题.考虑到这一点.

"将来"是这里的关键词.违反robots.txt文件从未在法庭上被视为非法.这是一个宝贵的先例,但Wayback Machine参与了2007年可能引起关注的行动:http://www.theregister.co.uk/2007/07/26/wayback_firm_suit/

推荐阅读

程序员
为什么points.sort(function(a,b){return ab}); 返回-1,0或1？

如何解决《为什么points.sort(function(a,b){returnab});返回-1,0或1？》经验，为你挑选了2个好方法。 ... [详细]
程序员
BeautifulSoup有错误的回应

如何解决《BeautifulSoup有错误的回应》经验，为你挑选了1个好方法。 ... [详细]
程序员
ap：commandButton操作后如何关闭ap：dialog？

如何解决《ap：commandButton操作后如何关闭ap：dialog？》经验，为你挑选了1个好方法。 ... [详细]
程序员
与readAll()相比,QSerialPort readLine()极慢

如何解决《与readAll()相比,QSerialPortreadLine()极慢》经验，为你挑选了1个好方法。 ... [详细]
程序员
移动键盘调整视口大小

如何解决《移动键盘调整视口大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么CAST(SYSDATE AS CHAR)不提供与TO_CHAR()相同的细节？

如何解决《为什么CAST(SYSDATEASCHAR)不提供与TO_CHAR()相同的细节？》经验，为你挑选了1个好方法。 ... [详细]
程序员
当PDO :: exec()中的任何语句失败时,有没有办法抛出异常？

如何解决《当PDO::exec()中的任何语句失败时,有没有办法抛出异常？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何解决重复的符号错误？

如何解决《如何解决重复的符号错误？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在UIButton中创建三角形

如何解决《在UIButton中创建三角形》经验，为你挑选了0个好方法。 ... [详细]
程序员
iOS自动布局错误地放置了一个错误的视图

如何解决《iOS自动布局错误地放置了一个错误的视图》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift中的base64EncodedStringWithOptions因编译错误而失败

如何解决《Swift中的base64EncodedStringWithOptions因编译错误而失败》经验，为你挑选了3个好方法。 ... [详细]
程序员
Realm.io可选属性

如何解决《Realm.io可选属性》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Python生成器解压缩为参数 - 内存效率高吗？

如何解决《将Python生成器解压缩为参数-内存效率高吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Meteor入门:点击显示/隐藏模板

如何解决《Meteor入门:点击显示/隐藏模板》经验，为你挑选了1个好方法。 ... [详细]
程序员
位字段可移植性

如何解决《位字段可移植性》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python MySQLdb：在游标上迭代

如何解决《PythonMySQLdb：在游标上迭代》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何取消Javascript Promise内部的超时？

如何解决《如何取消JavascriptPromise内部的超时？》经验，为你挑选了2个好方法。 ... [详细]
程序员
for循环是如何完成的

如何解决《for循环是如何完成的》经验，为你挑选了1个好方法。 ... [详细]
程序员
list comprehension替换2D矩阵中的循环

如何解决《listcomprehension替换2D矩阵中的循环》经验，为你挑选了1个好方法。 ... [详细]
程序员
Maven库的可选Gradle依赖项

如何解决《Maven库的可选Gradle依赖项》经验，为你挑选了2个好方法。 ... [详细]

赛亚兔备_393

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章