我正在编写一个涉及抓取网页的PHP脚本.目前,脚本逐行分析页面,但如果有跨越多行的标记,则会中断,例如
如果情况变得更糟,我可以通过删除所有换行符来预处理页面,然后在最近的位置重新插入它们>
,但这看起来像一个kludge.
理想情况下,我能够检测到跨越行的标记,仅与行结合,并继续处理.
那么检测这个的最佳方法是什么?
这是我的一个烦恼:永远不要手工解析HTML.永远不要用regexp解析HTML.永远不要使用字符串比较来解析HTML.始终使用HTML解析器来解析HTML - 这就是他们所需要的.
自从我完成任何PHP以来已经很长时间了,但是快速搜索了这个PHP5 HTML解析器.