当前位置:  开发笔记 > 编程语言 > 正文

如何使用Perl的LWP提取网站的XML并保存在文件中?

如何解决《如何使用Perl的LWP提取网站的XML并保存在文件中?》经验,为你挑选了1个好方法。

如何从网站(http://tv.yahoo.com/listings)中提取信息,然后从中创建XML文件?我想保存它以便稍后解析并使用JavaScript显示信息?

我是Perl的新手,我不知道如何做到这一点.



1> Aristotle Pa..:

当然.最简单的方法是Web :: Scraper模块.它的作用是让你定义包含的刮刀对象

    哈希键名,

    定位感兴趣元素的XPath表达式,

    以及从中提取数据位的代码.

Scraper对象获取URL并返回提取数据的哈希值.如果需要,每个键的提取器代码本身可以是另一个scraper对象,这样您就可以定义如何刮擦重复的复合页面元素:提供XPath以在外部刮刀中找到复合元素,然后提供更多的XPath来拉动在内部刮刀中分出它的各个位.然后结果自动成为嵌套数据结构.

简而言之,您可以非常优雅地将来自整个页面的数据吸收到Perl数据结构中.这样,XPath + Perl的全部功能可用于任何页面.由于页面是使用HTML :: TreeBuilder进行解析的,因此它的标签是多么令人讨厌.生成的scraper脚本比基于正则表达式的scraper更容易维护,并且更容忍轻微的标记变化.

坏消息:到目前为止,它的文档几乎不存在,所以你必须通过谷歌搜索类似[ miyagawa web :: scraper ]的东西来找到模块​​作者发布的示例脚本.

推荐阅读
赛亚兔备_393
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有