作者:TXCWB_523 | 2023-08-08 15:16
我试过WebSphinx应用程序.
我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.
那么,如何实际爬行整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?
任何人都有关于使用WebSphinx API的教程的好网站的建议?
1> Andrew..:
如果您的目标是抓取所有Wikipedia,您可能希望查看可用的数据库转储.见http://download.wikimedia.org/.
+1.通过HTTP抓取维基百科很粗鲁,并且会给服务器带来很多额外负担.
@GregHewgill,这是一个很好的假设声明.这实际上取决于您抓取网站的速度,您是否尊重robots.txt指令以及您认为"大量额外负载"的含义.根据维基百科"友好,低速机器人欢迎查看文章页面,但请不要动态生成页面." - http://en.wikipedia.org/robots.txt爬虫通常不是为解析wikipedia特定的xml文档而设计的,因为为wikipedia.com创建一个单独的系统解析过时的xml转储似乎很愚蠢.