从维基百科获取信息 - 如何获取HTML表单？

作者：勤奋的瞌睡猪_715 | 2023-08-26 16:48

如何解决《从维基百科获取信息-如何获取HTML表单？》经验，为你挑选了1个好方法。

我正在使用curl从维基百科中检索信息.到目前为止,我已成功检索基本文本信息,但我真的想要用HTML检索它.

这是我的代码:

$s = curl_init();       

$url = 'http://boss.yahooapis.com/ysearch/web/v1/site:en.wikipedia.org+'.$article_name.'?appid=myID';
curl_setopt($s,CURLOPT_URL, $url);
curl_setopt($s,CURLOPT_HEADER,false);
curl_setopt($s,CURLOPT_RETURNTRANSFER,1);

$rs = curl_exec($s);

$rs = Zend_Json::decode($rs);

$rs = ($rs['ysearchresponse']['resultset_web']);

$rs = array_shift($rs);
$article= str_replace('http://en.wikipedia.org/wiki/', '', $rs['url']);

$url = 'http://en.wikipedia.org/w/api.php?';
$url.='format=json';
$url.=sprintf('&action=query&titles=%s&rvprop=content&prop=revisions&redirects=1', $article);

curl_setopt($s,CURLOPT_URL, $url);
curl_setopt($s,CURLOPT_HEADER,false);
curl_setopt($s,CURLOPT_RETURNTRANSFER,1);

$rs = curl_exec($s);
//curl_close( $s );
$rs = Zend_Json::decode($rs);

$rs = array_pop(array_pop(array_pop($rs)));
$rs = array_shift($rs['revisions']);
$articleText = $rs['*'];

然而,以这种方式检索的文本不足以显示:(它全部采用这种格式

'''Aix-les-Bains'''[[Savoie]] [[法国部门]] [[罗纳 - 阿尔卑斯]] [[地区] [[Communes of France | commune]法国|地区]]在东南[[法国]].

铁路北[尚贝里]它位于靠近[紫胶杜歇] {简称=上} {转换| 9 |千米| |英里}.

==历史=='''Aix''源于[[拉丁文]]''Aquae''(字面意思是"水";''cf''[[Aix-la-Chapelle]](亚琛)或[[Aix] -en-Provence]]),Aix在[[罗马帝国]]期间洗澡,甚至在它被重新命名为'Aquae Gratianae'以纪念[[格拉蒂安皇帝]],在不远处被暗杀, [[里昂]],[[383]].许多罗马遗体幸存下来.[[Image:IMG 0109 Lake Promenade.jpg | thumb | left | Lac du Bourget Promenade]]

如何获取维基百科文章的HTML？

更新:谢谢,但我对此有点新,现在我正在尝试运行xpath查询[虽然是第一次],似乎无法获得任何结果.我实际上需要知道一些事情.

我如何只要求文章的一部分？

如何获取所请求文章的HTML.

我从维基百科上浏览了这个关于数据挖掘的网址 - 它提出了一个想法,向维基百科api发出第二个请求,将检索到的维基百科文本作为参数并检索html - 尽管到目前为止它似乎没有工作:( -我不想只把整篇文章当作乱七八糟的html来转储它.基本上我的应用程序它的作用是你在地图上有一些位置和城市针脚 - 你点击城市标记它会要求通过相关div中显示的城市的ajax详细信息.我希望动态地从维基百科获取这些信息.我会担心如何处理特定城市以后不存在的文章,只需要确保它在这一点上工作.

有没有人知道一个很好的工作示例,它正在寻找我正在寻找的东西,即阅读和解析维基百科文章的选定部分.

根据提供的网址 - 它说我应该将wiki文本发布到维基百科api位置,以便返回已解析的html.问题是,如果我发布信息,我得不到任何响应,而是一个我拒绝访问的错误 - 但是如果我尝试将wikitext包含为GET,则它会解析没有问题.但是,当我有太多的文本需要解析时,它当然失败了.

这是维基百科api的问题吗？因为我已经被黑客攻击了两天而现在没有运气:(

1> Frank Farmer..：

最简单的解决方案可能是抓取页面本身(例如http://en.wikipedia.org/wiki/Combination),然后

使用xpath查询提取内容.

推荐阅读

程序员
hybrid_property表达式中的if语句

如何解决《hybrid_property表达式中的if语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么datanode将块位置信息发送到namenode？

如何解决《为什么datanode将块位置信息发送到namenode？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在JavaScript中删除事件列表器

如何解决《在JavaScript中删除事件列表器》经验，为你挑选了1个好方法。 ... [详细]
程序员
惯用语Clojure功能别名

如何解决《惯用语Clojure功能别名》经验，为你挑选了1个好方法。 ... [详细]
程序员
确定使用哪些包

如何解决《确定使用哪些包》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android Butterknife - 片段绑定

如何解决《AndroidButterknife-片段绑定》经验，为你挑选了3个好方法。 ... [详细]
程序员
用碳将小时转换为PM和AM

如何解决《用碳将小时转换为PM和AM》经验，为你挑选了1个好方法。 ... [详细]
程序员
Golang客户为Cassandra

如何解决《Golang客户为Cassandra》经验，为你挑选了0个好方法。 ... [详细]
程序员
Kotlin:尚不支持Java 8的哪些功能？

如何解决《Kotlin:尚不支持Java8的哪些功能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在单个页面上创建多个p:确认对话框

如何解决《如何在单个页面上创建多个p:确认对话框》经验，为你挑选了1个好方法。 ... [详细]
程序员
在列表视图中设置选定的索引

如何解决《在列表视图中设置选定的索引》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果它正在运行,则停止并删除docker容器

如何解决《如果它正在运行,则停止并删除docker容器》经验，为你挑选了4个好方法。 ... [详细]
程序员
为什么这个导入工作？

如何解决《为什么这个导入工作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
不要使用CSS显示空的内联块元素

如何解决《不要使用CSS显示空的内联块元素》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java泛型和流

如何解决《Java泛型和流》经验，为你挑选了1个好方法。 ... [详细]
程序员
在switch语句中通过引用返回

如何解决《在switch语句中通过引用返回》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 IIS Express 500错误

如何解决《VisualStudio2015IISExpress500错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
从snake_case到camel

如何解决《从snake_case到camel》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何找到哪个Java/Scala线程锁定了文件？

如何解决《如何找到哪个Java/Scala线程锁定了文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
swift .framework更新导致'使用未声明的类型错误'

如何解决《swift.framework更新导致'使用未声明的类型错误'》经验，为你挑选了1个好方法。 ... [详细]

勤奋的瞌睡猪_715

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

DevBox开发工具箱 | 专业的在线开发工具网站