我应该使用什么语言/工具进行HTML解析？

作者：放ch养奶牛 | 2023-08-30 11:41

如何解决《我应该使用什么语言/工具进行HTML解析？》经验，为你挑选了1个好方法。

我有几个网站,我想从以前的经验中提取数据,这并不像听起来那么容易.为什么？仅仅因为我必须解析的HTML页面没有正确格式化(缺少结束标记等).

考虑到我对可以使用的技术,语言或工具没有限制,您有什么建议可以轻松地从HTML页面解析和提取数据？我已经尝试过HTML Agility Pack,BeautifulSoup,甚至这些工具也不完美(HTML Agility Pack有问题,而且BeautifulSoup解析引擎不适用于我传递给它的页面).

谢谢!

1> cletus..：

您可以使用几乎任何您喜欢的语言,只是不要尝试使用正则表达式解析HTML.

所以让我重新说一下并说:你可以使用任何你喜欢的语言,它有一个HTML解析器,这几乎是过去15 - 20年发明的一切.

如果您遇到特定页面的问题,我建议您考虑使用HTML Tidy修复它们.

推荐阅读

程序员
xlsxwriter中的自定义数据标签

如何解决《xlsxwriter中的自定义数据标签》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用React-Native运行自定义Babel变换

如何解决《使用React-Native运行自定义Babel变换》经验，为你挑选了1个好方法。 ... [详细]
程序员
将指针作为C++类中的成员字段是愚蠢的吗？

如何解决《将指针作为C++类中的成员字段是愚蠢的吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用JSoup获得隐藏的输入值？

如何解决《如何使用JSoup获得隐藏的输入值？》经验，为你挑选了0个好方法。 ... [详细]
程序员
最小比较时间.持续时间？

如何解决《最小比较时间.持续时间？》经验，为你挑选了1个好方法。 ... [详细]
程序员
正则表达式提取字符串后的第二个"." 字符串末尾的点字符

如何解决《正则表达式提取字符串后的第二个"."字符串末尾的点字符》经验，为你挑选了1个好方法。 ... [详细]
程序员
Safari自动"display:none!important"不会加载图片

如何解决《Safari自动"display:none!important"不会加载图片》经验，为你挑选了1个好方法。 ... [详细]
程序员
理解Beautiful Soup中的Find()函数

如何解决《理解BeautifulSoup中的Find()函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区？

如何解决《为什么`getNumPartitions()`没有给我"repartition"指定的正确数量的分区？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在页面刷新时保留Chrome DOM断点？

如何解决《如何在页面刷新时保留ChromeDOM断点？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Web Audio API中AudioWorkerNode的状态

如何解决《WebAudioAPI中AudioWorkerNode的状态》经验，为你挑选了1个好方法。 ... [详细]
程序员
Loop没有捕获重复项并在Android(Java)中删除它们

如何解决《Loop没有捕获重复项并在Android(Java)中删除它们》经验，为你挑选了0个好方法。 ... [详细]
程序员
我应该为我写的每一个javascript函数'使用严格'吗？

如何解决《我应该为我写的每一个javascript函数'使用严格'吗？》经验，为你挑选了3个好方法。 ... [详细]
程序员
在facebook sdk服务文件上启用压缩以优化网站

如何解决《在facebooksdk服务文件上启用压缩以优化网站》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何为eclipse安装最新版本的ADT插件

如何解决《如何为eclipse安装最新版本的ADT插件》经验，为你挑选了2个好方法。 ... [详细]
程序员
在Swift(iOS应用程序)中,何时需要使用其他整数类型？

如何解决《在Swift(iOS应用程序)中,何时需要使用其他整数类型？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用node.js将查询字符串参数传递给Smartsheet API？

如何解决《如何使用node.js将查询字符串参数传递给SmartsheetAPI？》经验，为你挑选了1个好方法。 ... [详细]
程序员
TensorFlow LSTM生成模型

如何解决《TensorFlowLSTM生成模型》经验，为你挑选了1个好方法。 ... [详细]
程序员
Double Sapply嵌套功能

如何解决《DoubleSapply嵌套功能》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不嵌套其他容器的情况下垂直对齐内容？

如何解决《如何在不嵌套其他容器的情况下垂直对齐内容？》经验，为你挑选了1个好方法。 ... [详细]

放ch养奶牛

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章