当前位置:  开发笔记 > 编程语言 > 正文

如何抓取整个维基百科?

如何解决《如何抓取整个维基百科?》经验,为你挑选了1个好方法。

我试过WebSphinx应用程序.

我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.

那么,如何实际爬行整个维基百科?任何人都可以给出一些指导方针吗?我是否需要专门去查找这些网址并放置多个起始网址?

任何人都有关于使用WebSphinx API的教程的好网站的建议?



1> Andrew..:

如果您的目标是抓取所有Wikipedia,您可能希望查看可用的数据库转储.见http://download.wikimedia.org/.


+1.通过HTTP抓取维基百科很粗鲁,并且会给服务器带来很多额外负担.
@GregHewgill,这是一个很好的假设声明.这实际上取决于您抓取网站的速度,您是否尊重robots.txt指令以及您认为"大量额外负载"的含义.根据维基百科"友好,低速机器人欢迎查看文章页面,但请不要动态生成页面." - http://en.wikipedia.org/robots.txt爬虫通常不是为解析wikipedia特定的xml文档而设计的,因为为wikipedia.com创建一个单独的系统解析过时的xml转储似乎很愚蠢.
推荐阅读
TXCWB_523
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有