20赞

Crawler4j,一些网址被抓取没有问题,而其他网址根本没有被抓取.

作者：吻过彩虹的脸_378 | 2023-09-10 13:00

如何解决《Crawler4j,一些网址被抓取没有问题,而其他网址根本没有被抓取.》经验，为你挑选了1个好方法。

1> rzo..：

crawler4j尊重履带式政治,如robots.txt.在你的情况下,该文件是以下一个.

检查此文件显示,不允许抓取您给定的种子点:

 Disallow: /ShowRatings.jsp 
 Disallow: /campusRatings.jsp

crawler4j日志输出支持该理论:

2015-12-15 19:47:18,791 WARN  [main] CrawlController (430): Robots.txt does not allow this seed: http://www.ratemyprofessors.com/campusRatings.jsp?sid=1222
2015-12-15 19:47:18,793 WARN  [main] CrawlController (430): Robots.txt does not allow this seed: http://www.ratemyprofessors.com/ShowRatings.jsp?tid=136044

推荐阅读

程序员
如何从npm install获取更多信息？

如何解决《如何从npminstall获取更多信息？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么这个for循环停止了？

如何解决《为什么这个for循环停止了？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我可以指望任何STL容器的sizeof(string)或sizeof吗？

如何解决《我可以指望任何STL容器的sizeof(string)或sizeof吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我不能为libsass构建轮子,即使它会安装？

如何解决《为什么我不能为libsass构建轮子,即使它会安装？》经验，为你挑选了1个好方法。 ... [详细]
程序员
重塑相关矩阵,仅包括每对变量一次

如何解决《重塑相关矩阵,仅包括每对变量一次》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果dataSource计数可能会改变,可以同时使用reloadItemsAtIndexPaths和reloadData吗？

如何解决《如果dataSource计数可能会改变,可以同时使用reloadItemsAtIndexPaths和reloadData吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
亚马逊s3a使用Spark返回400 Bad Request

如何解决《亚马逊s3a使用Spark返回400BadRequest》经验，为你挑选了1个好方法。 ... [详细]
程序员
ViewBag里面有什么？

如何解决《ViewBag里面有什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
<p>元素中的数组,每个都是换行符？

如何解决《<p>元素中的数组,每个都是换行符？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Node.js中使用RabbitMQ进行标头交换示例

如何解决《在Node.js中使用RabbitMQ进行标头交换示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在IntelliJ中加载Avro模式？

如何解决《如何在IntelliJ中加载Avro模式？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么Java同时具有CountDownLatch和CyclicBarrier？

如何解决《为什么Java同时具有CountDownLatch和CyclicBarrier？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio无法识别ES6模板字符串

如何解决《VisualStudio无法识别ES6模板字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法从Spark Submit中的JAR文件加载主类

如何解决《无法从SparkSubmit中的JAR文件加载主类》经验，为你挑选了1个好方法。 ... [详细]
程序员
番石榴版同时使用火花壳

如何解决《番石榴版同时使用火花壳》经验，为你挑选了1个好方法。 ... [详细]
程序员
VBA：崩溃后如何关闭Excel.Application

如何解决《VBA：崩溃后如何关闭Excel.Application》经验，为你挑选了1个好方法。 ... [详细]
程序员
nonptr-new-declarator中的错误表达

如何解决《nonptr-new-declarator中的错误表达》经验，为你挑选了1个好方法。 ... [详细]
程序员
Scikit-学习自定义决策树叶类型

如何解决《Scikit-学习自定义决策树叶类型》经验，为你挑选了0个好方法。 ... [详细]
程序员
Postgres now()vs'now'in function

如何解决《Postgresnow()vs'now'infunction》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何增加超过10000的图像搜索的谷歌自定义搜索配额？

如何解决《如何增加超过10000的图像搜索的谷歌自定义搜索配额？》经验，为你挑选了0个好方法。 ... [详细]

吻过彩虹的脸_378

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章