3赞

使用Python获取Wikipedia文章

作者：ifx0448363 | 2023-09-05 09:15

如何解决《使用Python获取Wikipedia文章》经验，为你挑选了3个好方法。

我尝试使用Python的urllib获取维基百科文章:

f = urllib.urlopen("http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes")           
s = f.read()
f.close()

然而,而不是HTML页面,我得到以下响应:错误 - 维基媒体基金会:

Request: GET http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes, from 192.35.17.11 via knsq1.knams.wikimedia.org (squid/2.6.STABLE21) to ()
Error: ERR_ACCESS_DENIED, errno [No Error] at Tue, 23 Sep 2008 09:09:08 GMT

维基百科似乎阻止了不是来自标准浏览器的请求.

有谁知道如何解决这个问题？

1> Florian Bösc..：

您需要使用在python std库中取代urllib的urllib2来更改用户代理.

直接来自例子

import urllib2
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
infile = opener.open('http://en.wikipedia.org/w/index.php?title=Albert_Einstein&printable=yes')
page = infile.read()

维基百科试图阻止屏幕抓取器的原因.当有更简单的方法来获取文章内容时,他们的服务器必须做很多工作才能将wikicode转换为HTML.http://en.wikipedia.org/wiki/Wikipedia:Database_download#Please_do_not_use_a_web_crawler

2> Hannes Ovrén..：

它不是特定问题的解决方案.但是,您可能需要使用mwclient库(http://botwiki.sno.cc/wiki/Python:Mwclient).那会容易得多.特别是因为您将直接获取文章内容,从而无需解析html.

我自己用它来做两个项目,效果很好.

由于mwclient使用mediawiki api,因此不需要解析内容.我猜测原始海报想要内容,而不是原始的html菜单和所有.

使用第三方库可以在几行代码中使用buildin库轻松完成,这不是一个好建议.

3> sligocki..：

您应该考虑使用他们的高级API,而不是试图欺骗维基百科.

推荐阅读

程序员
SQL Server表列中的默认值为GUID

如何解决《SQLServer表列中的默认值为GUID》经验，为你挑选了1个好方法。 ... [详细]
程序员
覆盖iPhone中所有设备的屏幕所需的图像大小

如何解决《覆盖iPhone中所有设备的屏幕所需的图像大小》经验，为你挑选了0个好方法。 ... [详细]
程序员
将promise polyfill添加到ES6

如何解决《将promisepolyfill添加到ES6》经验，为你挑选了1个好方法。 ... [详细]
程序员
Kryo注册了LabeledPoint类

如何解决《Kryo注册了LabeledPoint类》经验，为你挑选了1个好方法。 ... [详细]
程序员
在swift中调用超级指定初始化程序之前初始化属性值的目的是什么？

如何解决《在swift中调用超级指定初始化程序之前初始化属性值的目的是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我应该使用哪种助推器来存储人类年龄

如何解决《我应该使用哪种助推器来存储人类年龄》经验，为你挑选了1个好方法。 ... [详细]
程序员
Angular.JS onclick函数仅在第一次单击时调用

如何解决《Angular.JSonclick函数仅在第一次单击时调用》经验，为你挑选了0个好方法。 ... [详细]
程序员
html5 - 如何折叠和扩展复杂的表元素

如何解决《html5-如何折叠和扩展复杂的表元素》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何忽略以不同高度创建的边距内联块？

如何解决《如何忽略以不同高度创建的边距内联块？》经验，为你挑选了0个好方法。 ... [详细]
程序员
使每一秒div都有不同的背景颜色

如何解决《使每一秒div都有不同的背景颜色》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android Studio 2.0(预览3b)布局xml更改未在apk中更新？

如何解决《AndroidStudio2.0(预览3b)布局xml更改未在apk中更新？》经验，为你挑选了0个好方法。 ... [详细]
程序员
每个钩子错误之前的角度业力幻像

如何解决《每个钩子错误之前的角度业力幻像》经验，为你挑选了0个好方法。 ... [详细]
程序员
是什么导致我的循环只在第一次迭代中忽略这个"\ t"？

如何解决《是什么导致我的循环只在第一次迭代中忽略这个"\t"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过蓝牙或USB与打印机设备通信并进行控制

如何解决《通过蓝牙或USB与打印机设备通信并进行控制》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在psycopg2中返回列表而不是元组

如何解决《如何在psycopg2中返回列表而不是元组》经验，为你挑选了1个好方法。 ... [详细]
程序员
字符串数到整数不工作的PHP

如何解决《字符串数到整数不工作的PHP》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用问题与rails中的模块有什么区别？

如何解决《使用问题与rails中的模块有什么区别？》经验，为你挑选了1个好方法。 ... [详细]
程序员
(转到)如何使用toml文件？

如何解决《(转到)如何使用toml文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
关于Swagger API的建议

如何解决《关于SwaggerAPI的建议》经验，为你挑选了1个好方法。 ... [详细]
程序员
单元测试Spring Cloud Service的策略

如何解决《单元测试SpringCloudService的策略》经验，为你挑选了1个好方法。 ... [详细]

ifx0448363

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章