如何从网站(http://tv.yahoo.com/listings)中提取信息,然后从中创建XML文件?我想保存它以便稍后解析并使用JavaScript显示信息?
我是Perl的新手,我不知道如何做到这一点.
当然.最简单的方法是Web :: Scraper模块.它的作用是让你定义包含的刮刀对象
哈希键名,
定位感兴趣元素的XPath表达式,
以及从中提取数据位的代码.
Scraper对象获取URL并返回提取数据的哈希值.如果需要,每个键的提取器代码本身可以是另一个scraper对象,这样您就可以定义如何刮擦重复的复合页面元素:提供XPath以在外部刮刀中找到复合元素,然后提供更多的XPath来拉动在内部刮刀中分出它的各个位.然后结果自动成为嵌套数据结构.
简而言之,您可以非常优雅地将来自整个页面的数据吸收到Perl数据结构中.这样,XPath + Perl的全部功能可用于任何页面.由于页面是使用HTML :: TreeBuilder进行解析的,因此它的标签是多么令人讨厌.生成的scraper脚本比基于正则表达式的scraper更容易维护,并且更容忍轻微的标记变化.
坏消息:到目前为止,它的文档几乎不存在,所以你必须通过谷歌搜索类似[ miyagawa web :: scraper ]的东西来找到模块作者发布的示例脚本.