当前位置:  开发笔记 > 前端 > 正文

你如何解析格式不佳的HTML文件?

如何解决《你如何解析格式不佳的HTML文件?》经验,为你挑选了1个好方法。

我必须解析一系列网页才能将数据导入应用程序.每种类型的网页都提供相同类型的数据.问题是每个页面的HTML不同,因此数据的位置会有所不同.另一个问题是HTML代码格式不正确,因此无法使用类似XML的解析器.

到目前为止,我能想到的最好的策略是为每种页面定义一个模板,例如:

模板A:


...
  Table column that is missing a td 
       Another table column
  $data_item_1$
...

模板B:


...
  
  • Yet another poorly formatted page
  • $data_item_1$ ...

这样,我只需要对所有的页面一个单独的语法分析器,将每一页,其模板和检索比较$data_item_1$,$data_item_2$等等.不过,这将是大量的工作.你能想到更简单的解决方案吗?任何可以帮助的图书馆?

谢谢



1> Geo..:

您可以通过整理来传递页面的源代码以获得有效页面.你可以在这里找到整洁 .Tidy对许多编程语言都有绑定.完成此操作后,您可以使用自己喜欢的解析器/内容提取技术.

推荐阅读
mobiledu2402851323
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有