我尝试使用Python的urllib获取维基百科文章:
f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes") s = f.read() f.close()
然而,而不是HTML页面,我得到以下响应:错误 - 维基媒体基金会:
Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to () Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT
维基百科似乎阻止了不是来自标准浏览器的请求.
有谁知道如何解决这个问题?
您需要使用在python std库中取代urllib的urllib2来更改用户代理.
直接来自例子
import urllib2 opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'Mozilla/5.0')] infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes') page = infile.read()
它不是特定问题的解决方案.但是,您可能需要使用mwclient库(http://botwiki.sno.cc/wiki/Python:Mwclient).那会容易得多.特别是因为您将直接获取文章内容,从而无需解析html.
我自己用它来做两个项目,效果很好.
您应该考虑使用他们的高级API,而不是试图欺骗维基百科.