当前位置:  开发笔记 > 前端 > 正文

我应该使用什么语言/工具进行HTML解析?

如何解决《我应该使用什么语言/工具进行HTML解析?》经验,为你挑选了1个好方法。

我有几个网站,我想从以前的经验中提取数据,这并不像听起来那么容易.为什么?仅仅因为我必须解析的HTML页面没有正确格式化(缺少结束标记等).

考虑到我对可以使用的技术,语言或工具没有限制,您有什么建议可以轻松地从HTML页面解析和提取数据?我已经尝试过HTML Agility Pack,BeautifulSoup,甚至这些工具也不完美(HTML Agility Pack有问题,而且BeautifulSoup解析引擎不适用于我传递给它的页面).

谢谢!



1> cletus..:

您可以使用几乎任何您喜欢的语言,只是不要尝试使用正则表达式解析HTML.

所以让我重新说一下并说:你可以使用任何你喜欢的语言,它有一个HTML解析器,这几乎是过去15 - 20年发明的一切.

如果您遇到特定页面的问题,我建议您考虑使用HTML Tidy修复它们.

推荐阅读
放ch养奶牛
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有