当前位置:  开发笔记 > 编程语言 > 正文

HTML中的HTML Scraping

如何解决《HTML中的HTMLScraping》经验,为你挑选了4个好方法。

我一直在使用正则表达式在PHP中进行一些HTML抓取.这有效,但结果是挑剔和脆弱.有没有人使用任何提供更强大解决方案的软件包?配置驱动的解决方案是理想的,但我不挑剔.



1> Espo..:

从页面中删除HTML后,我会推荐PHP Simple HTML DOM Parser.它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素.


建议实际使用[DOM](http://php.net/manual/en/book.dom.php)而不是String Parsing的[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/)的第三方替代方案: [phpQuery](http://code.google.com/p/phpquery/),[Zend_Dom](http://framework.zend.com/manual/en/zend.dom.html),[QueryPath](http ://querypath.org/)和[FluentDom](http://www.fluentdom.org).

2> John Douthat..:

如果你正在抓取的页面是有效的X(HT)ML,那么任何PHP的内置XML解析器都可以.

我没有用PHP库进行抓取取得多大成功.如果你喜欢冒险,你可以试试simplehtmldom.我推荐用于Ruby的Hpricot或用于Python的Beautiful Soup,它们都是HTML的优秀解析器.



3> BlaM..:

我在使用htmlSQL时有一些乐趣,这不是一个高端解决方案,但使用起来非常简单.



4> Orange Box..:

我还推荐'Simple HTML DOM Parser'.这是一个很好的选择,特别是如果您熟悉jQuery或JavaScript选择器,那么您会发现自己在家里.

我过去甚至在博客上写过这篇文章.

推荐阅读
依然-狠幸福
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有