我有几个网站,我想从以前的经验中提取数据,这并不像听起来那么容易.为什么?仅仅因为我必须解析的HTML页面没有正确格式化(缺少结束标记等).
考虑到我对可以使用的技术,语言或工具没有限制,您有什么建议可以轻松地从HTML页面解析和提取数据?我已经尝试过HTML Agility Pack,BeautifulSoup,甚至这些工具也不完美(HTML Agility Pack有问题,而且BeautifulSoup解析引擎不适用于我传递给它的页面).
谢谢!
您可以使用几乎任何您喜欢的语言,只是不要尝试使用正则表达式解析HTML.
所以让我重新说一下并说:你可以使用任何你喜欢的语言,它有一个HTML解析器,这几乎是过去15 - 20年发明的一切.
如果您遇到特定页面的问题,我建议您考虑使用HTML Tidy修复它们.