当前位置:  开发笔记 > 编程语言 > 正文

在PHP中解析格式错误的HTML

如何解决《在PHP中解析格式错误的HTML》经验,为你挑选了1个好方法。

在我的代码中,我使用openoffice将一些样式的xls文档转换为html.然后我使用解析表xml_parser_create.问题是openoffice使用unclosed


tags 创建oldschool html ,它不会创建doctypes并且不引用属性.

我知道的PHP解析器不喜欢这个,并产生xml格式错误.我目前的解决方案是在解析文件之前对文件运行一些正则表达式,但这既不好也不快.

你知道一个(希望包括在内)php解析器,它不关心这些错误吗?或者也许是一种快速修复'破坏'html的方法?



1> Pascal MARTI..:

"修复"损坏的HTML的解决方案可能是使用HTMLPurifier (引用):

HTML Purifier是一个用PHP编写的符合标准的HTML过滤器库.
HTML Purifier不仅会删除所有恶意代码(更好地称为XSS),而且还会通过经过全面审核,安全且允许的白名单, 还可以确保您的文档符合标准


另一种想法可能是尝试使用(引用)加载HTML :DOMDocument::loadHTML

该函数解析字符串源中包含的HTML.与加载XML不同,HTML不必加载良好.

如果您尝试从文件加载HTML,请参阅DOMDocument::loadHTMLFile.

推荐阅读
雨天是最美
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有