你如何解析格式不佳的HTML文件？

作者：mobiledu2402851323 | 2023-08-28 15:07

如何解决《你如何解析格式不佳的HTML文件？》经验，为你挑选了1个好方法。

我必须解析一系列网页才能将数据导入应用程序.每种类型的网页都提供相同类型的数据.问题是每个页面的HTML不同,因此数据的位置会有所不同.另一个问题是HTML代码格式不正确,因此无法使用类似XML的解析器.

到目前为止,我能想到的最好的策略是为每种页面定义一个模板,例如:

模板A:


...
  Table column that is missing a td 
       Another table column
  $data_item_1$
...

模板B:


...
  Yet another poorly formatted page 
$data_item_1$
...

这样,我只需要对所有的页面一个单独的语法分析器,将每一页,其模板和检索比较 $data_item_1$ , $data_item_2$ 等等.不过,这将是大量的工作.你能想到更简单的解决方案吗？任何可以帮助的图书馆？

谢谢

1> Geo..：

您可以通过整理来传递页面的源代码以获得有效页面.你可以在这里找到整洁 .Tidy对许多编程语言都有绑定.完成此操作后,您可以使用自己喜欢的解析器/内容提取技术.

推荐阅读

程序员
如何使用BitBucket REST api 2.0发布拉取请求评论？

如何解决《如何使用BitBucketRESTapi2.0发布拉取请求评论？》经验，为你挑选了0个好方法。 ... [详细]
程序员
jquery animate - 返回原始位置

如何解决《jqueryanimate-返回原始位置》经验，为你挑选了1个好方法。 ... [详细]
程序员
2列出字典问题

如何解决《2列出字典问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
了解@weakify宏

如何解决《了解@weakify宏》经验，为你挑选了1个好方法。 ... [详细]
程序员
在自定义JsonConverter的ReadJson方法中处理null对象

如何解决《在自定义JsonConverter的ReadJson方法中处理null对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
不区分大小写检查HttpServletRequest中的角色

如何解决《不区分大小写检查HttpServletRequest中的角色》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何不加选择地替换TOP 1000行的选择列

如何解决《如何不加选择地替换TOP1000行的选择列》经验，为你挑选了1个好方法。 ... [详细]
程序员
WKWebView - Javascript确认和警报无法正常工作

如何解决《WKWebView-Javascript确认和警报无法正常工作》经验，为你挑选了3个好方法。 ... [详细]
程序员
Media instagram端点无法正常工作 - 媒体ID无效

如何解决《Mediainstagram端点无法正常工作-媒体ID无效》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让Docker Gitlab CI运行器在其父主机上访问Git？

如何解决《如何让DockerGitlabCI运行器在其父主机上访问Git？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我们可以减少从ArrayList准备Java HashSet的时间复杂度O(n)吗？

如何解决《我们可以减少从ArrayList准备JavaHashSet的时间复杂度O(n)吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果关系上没有索引,SQL查询是否有效？

如何解决《如果关系上没有索引,SQL查询是否有效？》经验，为你挑选了1个好方法。 ... [详细]
程序员
JFrame被处理了吗？

如何解决《JFrame被处理了吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
os.system中的变量

如何解决《os.system中的变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android领域错误的线程

如何解决《Android领域错误的线程》经验，为你挑选了1个好方法。 ... [详细]
程序员
preg_match_all会导致孩子死亡

如何解决《preg_match_all会导致孩子死亡》经验，为你挑选了0个好方法。 ... [详细]
程序员
当使用自定义会话处理程序并建立了第二个postgres连接时,PHP7会破坏我的会话

如何解决《当使用自定义会话处理程序并建立了第二个postgres连接时,PHP7会破坏我的会话》经验，为你挑选了0个好方法。 ... [详细]
程序员
一行中设置了两个<p>标记？

如何解决《一行中设置了两个<p>标记？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在dotnet core/corefx中是否有与HtmlTextWriter等效的类？

如何解决《在dotnetcore/corefx中是否有与HtmlTextWriter等效的类？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在HTML中的for循环中使用文档

如何解决《如何在HTML中的for循环中使用文档》经验，为你挑选了1个好方法。 ... [详细]

mobiledu2402851323

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章