当前位置:  开发笔记 > 编程语言 > 正文

使用Python获取Wikipedia文章

如何解决《使用Python获取Wikipedia文章》经验,为你挑选了3个好方法。

我尝试使用Python的urllib获取维基百科文章:

f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes")           
s = f.read()
f.close()

然而,而不是HTML页面,我得到以下响应:错误 - 维基媒体基金会:

Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to ()
Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT 

维基百科似乎阻止了不是来自标准浏览器的请求.

有谁知道如何解决这个问题?



1> Florian Bösc..:

您需要使用在python std库中取代urllib的urllib2来更改用户代理.

直接来自例子

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
page = infile.read()


维基百科试图阻止屏幕抓取器的原因.当有更简单的方法来获取文章内容时,他们的服务器必须做很多工作才能将wikicode转换为HTML.http://en.wikipedia.org/wiki/Wikipedia:Database_download#Please_do_not_use_a_web_crawler

2> Hannes Ovrén..:

它不是特定问题的解决方案.但是,您可能需要使用mwclient库(http://botwiki.sno.cc/wiki/Python:Mwclient).那会容易得多.特别是因为您将直接获取文章内容,从而无需解析html.

我自己用它来做两个项目,效果很好.


由于mwclient使用mediawiki api,因此不需要解析内容.我猜测原始海报想要内容,而不是原始的html菜单和所有.
使用第三方库可以在几行代码中使用buildin库轻松完成,这不是一个好建议.

3> sligocki..:

您应该考虑使用他们的高级API,而不是试图欺骗维基百科.

推荐阅读
ifx0448363
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有