当前位置:  开发笔记 > 编程语言 > 正文

Crawler4j,一些网址被抓取没有问题,而其他网址根本没有被抓取.

如何解决《Crawler4j,一些网址被抓取没有问题,而其他网址根本没有被抓取.》经验,为你挑选了1个好方法。



1> rzo..:

crawler4j尊重履带式政治,如robots.txt.在你的情况下,该文件是以下一个.

检查此文件显示,不允许抓取您给定的种子点:

 Disallow: /ShowRatings.jsp 
 Disallow: /campusRatings.jsp 

crawler4j日志输出支持该理论:

2015-12-15 19:47:18,791 WARN  [main] CrawlController (430): Robots.txt does not allow this seed: http://www.ratemyprofessors.com/campusRatings.jsp?sid=1222
2015-12-15 19:47:18,793 WARN  [main] CrawlController (430): Robots.txt does not allow this seed: http://www.ratemyprofessors.com/ShowRatings.jsp?tid=136044

推荐阅读
吻过彩虹的脸_378
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有