我一直在使用正则表达式在PHP中进行一些HTML抓取.这有效,但结果是挑剔和脆弱.有没有人使用任何提供更强大解决方案的软件包?配置驱动的解决方案是理想的,但我不挑剔.
从页面中删除HTML后,我会推荐PHP Simple HTML DOM Parser.它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素.
如果你正在抓取的页面是有效的X(HT)ML,那么任何PHP的内置XML解析器都可以.
我没有用PHP库进行抓取取得多大成功.如果你喜欢冒险,你可以试试simplehtmldom.我推荐用于Ruby的Hpricot或用于Python的Beautiful Soup,它们都是HTML的优秀解析器.
我在使用htmlSQL时有一些乐趣,这不是一个高端解决方案,但使用起来非常简单.
我还推荐'Simple HTML DOM Parser'.这是一个很好的选择,特别是如果您熟悉jQuery或JavaScript选择器,那么您会发现自己在家里.
我过去甚至在博客上写过这篇文章.