13赞

HTML中的HTML Scraping

作者：依然-狠幸福 | 2023-09-06 04:47

如何解决《HTML中的HTMLScraping》经验，为你挑选了4个好方法。

我一直在使用正则表达式在PHP中进行一些HTML抓取.这有效,但结果是挑剔和脆弱.有没有人使用任何提供更强大解决方案的软件包？配置驱动的解决方案是理想的,但我不挑剔.

1> Espo..：

从页面中删除HTML后,我会推荐PHP Simple HTML DOM Parser.它支持无效的HTML,并提供了一种非常简单的方法来处理HTML元素.

建议实际使用[DOM](http://php.net/manual/en/book.dom.php)而不是String Parsing的[SimpleHtmlDom](http://simplehtmldom.sourceforge.net/)的第三方替代方案: [phpQuery](http://code.google.com/p/phpquery/),[Zend_Dom](http://framework.zend.com/manual/en/zend.dom.html),[QueryPath](http ://querypath.org/)和[FluentDom](http://www.fluentdom.org).

2> John Douthat..：

如果你正在抓取的页面是有效的X(HT)ML,那么任何PHP的内置XML解析器都可以.

我没有用PHP库进行抓取取得多大成功.如果你喜欢冒险,你可以试试simplehtmldom.我推荐用于Ruby的Hpricot或用于Python的Beautiful Soup,它们都是HTML的优秀解析器.

3> BlaM..：

我在使用htmlSQL时有一些乐趣,这不是一个高端解决方案,但使用起来非常简单.

4> Orange Box..：

我还推荐'Simple HTML DOM Parser'.这是一个很好的选择,特别是如果您熟悉jQuery或JavaScript选择器,那么您会发现自己在家里.

我过去甚至在博客上写过这篇文章.

推荐阅读

程序员
如何使用lambda将数组中的每个项目相乘？

如何解决《如何使用lambda将数组中的每个项目相乘？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure中的Wordpress托管,集成了媒体服务和上传器安全性

如何解决《Azure中的Wordpress托管,集成了媒体服务和上传器安全性》经验，为你挑选了1个好方法。 ... [详细]
程序员
此搜索方法中IComparable和IComparable <T>之间的差异

如何解决《此搜索方法中IComparable和IComparable<T>之间的差异》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Android API级别23上访问UserDictionary Content Provider

如何解决《在AndroidAPI级别23上访问UserDictionaryContentProvider》经验，为你挑选了0个好方法。 ... [详细]
程序员
清除错误后,TextInputLayout.setError()会留空空格

如何解决《清除错误后,TextInputLayout.setError()会留空空格》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何循环参数java？

如何解决《如何循环参数java？》经验，为你挑选了1个好方法。 ... [详细]
程序员
`pip install pyside`冻结在Linux上？

如何解决《`pipinstallpyside`冻结在Linux上？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中的方法重载:更多重载

如何解决《Python中的方法重载:更多重载》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rails:为什么我的服务器将http重定向到https

如何解决《Rails:为什么我的服务器将http重定向到https》经验，为你挑选了1个好方法。 ... [详细]
程序员
在c ++中使用"this"关键字对性能有影响吗？

如何解决《在c++中使用"this"关键字对性能有影响吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个AngularJS工厂的例子究竟如何？有些疑惑

如何解决《这个AngularJS工厂的例子究竟如何？有些疑惑》经验，为你挑选了0个好方法。 ... [详细]
程序员
GOCR没有使用培训结果

如何解决《GOCR没有使用培训结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Xcode中调整UIStackView的子视图？

如何解决《如何在Xcode中调整UIStackView的子视图？》经验，为你挑选了0个好方法。 ... [详细]
程序员
可靠地将类型符号(ITypeSymbol)与Roslyn进行比较

如何解决《可靠地将类型符号(ITypeSymbol)与Roslyn进行比较》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么是hadoop中的序列文件？

如何解决《什么是hadoop中的序列文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
需要有关Flask安全模块的密码散列算法的建议

如何解决《需要有关Flask安全模块的密码散列算法的建议》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何设置pep8 linter接受2个空格缩进？

如何解决《如何设置pep8linter接受2个空格缩进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
过滤其值小于0的pandas数据帧行

如何解决《过滤其值小于0的pandas数据帧行》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Ansible中,是否可以根据剧本定义身份验证方法？

如何解决《在Ansible中,是否可以根据剧本定义身份验证方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用哈希表在球拍中排序更快

如何解决《使用哈希表在球拍中排序更快》经验，为你挑选了1个好方法。 ... [详细]

依然-狠幸福

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章