如何抓取整个维基百科？

作者：TXCWB_523 | 2023-08-08 15:16

如何解决《如何抓取整个维基百科？》经验，为你挑选了1个好方法。

我试过WebSphinx应用程序.

我意识到如果我把wikipedia.org作为起始URL,它将不会进一步爬行.

那么,如何实际爬行整个维基百科？任何人都可以给出一些指导方针吗？我是否需要专门去查找这些网址并放置多个起始网址？

任何人都有关于使用WebSphinx API的教程的好网站的建议？

1> Andrew..：

如果您的目标是抓取所有Wikipedia,您可能希望查看可用的数据库转储.见http://download.wikimedia.org/.

+1.通过HTTP抓取维基百科很粗鲁,并且会给服务器带来很多额外负担.

@GregHewgill,这是一个很好的假设声明.这实际上取决于您抓取网站的速度,您是否尊重robots.txt指令以及您认为"大量额外负载"的含义.根据维基百科"友好,低速机器人欢迎查看文章页面,但请不要动态生成页面." - http://en.wikipedia.org/robots.txt爬虫通常不是为解析wikipedia特定的xml文档而设计的,因为为wikipedia.com创建一个单独的系统解析过时的xml转储似乎很愚蠢.

推荐阅读

程序员
NSNotification子类与Swift 2.1中的Generics

如何解决《NSNotification子类与Swift2.1中的Generics》经验，为你挑选了1个好方法。 ... [详细]
程序员
检查两个数字是否有不同符号的简单方法？

如何解决《检查两个数字是否有不同符号的简单方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
OS X屏幕保护程序:Retina缩略图图像

如何解决《OSX屏幕保护程序:Retina缩略图图像》经验，为你挑选了0个好方法。 ... [详细]
程序员
通过物联网协议的视频流是否可行？

如何解决《通过物联网协议的视频流是否可行？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swift - 删除单个反斜杠

如何解决《Swift-删除单个反斜杠》经验，为你挑选了1个好方法。 ... [详细]
程序员
行动过程中的离子误差!试图恢复

如何解决《行动过程中的离子误差!试图恢复》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用jQuery Ajax的JWT令牌

如何解决《使用jQueryAjax的JWT令牌》经验，为你挑选了0个好方法。 ... [详细]
程序员
Ant:jarfile和destfile是一样的吗？

如何解决《Ant:jarfile和destfile是一样的吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
由于标准C委员会没有标准化gets()的简单替换,它应该是什么？

如何解决《由于标准C委员会没有标准化gets()的简单替换,它应该是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Haskell映射不会遍历整个列表

如何解决《Haskell映射不会遍历整个列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
修改Python列表的每个元素,并将结果合并为一个字符串

如何解决《修改Python列表的每个元素,并将结果合并为一个字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
在编译时将std :: array的每个元素相乘

如何解决《在编译时将std::array的每个元素相乘》经验，为你挑选了1个好方法。 ... [详细]
程序员
获取连续的日期范围

如何解决《获取连续的日期范围》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何定义不是列表的自定义插槽类型？

如何解决《如何定义不是列表的自定义插槽类型？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将数组复制到Range.Value2 SafeArray.pvData成功,但Excel无法更新

如何解决《将数组复制到Range.Value2SafeArray.pvData成功,但Excel无法更新》经验，为你挑选了0个好方法。 ... [详细]
程序员
!pip install nltk - >权限被拒绝

如何解决《!pipinstallnltk->权限被拒绝》经验，为你挑选了1个好方法。 ... [详细]
程序员
从NUnit TestContext检索测试持续时间

如何解决《从NUnitTestContext检索测试持续时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误:任务执行失败':app:transformResourcesWithMergeJavaResForDebug'

如何解决《错误:任务执行失败':app:transformResourcesWithMergeJavaResForDebug'》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Ubuntu上运行docker:挂载的主机卷不能从容器写入

如何解决《在Ubuntu上运行docker:挂载的主机卷不能从容器写入》经验，为你挑选了2个好方法。 ... [详细]
程序员
检查String是否是列表中元素的串联

如何解决《检查String是否是列表中元素的串联》经验，为你挑选了1个好方法。 ... [详细]

TXCWB_523

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章