当前位置:  开发笔记 > 前端 > 正文

获取不同HTML标记的最佳方法

如何解决《获取不同HTML标记的最佳方法》经验,为你挑选了1个好方法。

我正在尝试从各种博客中获取一些HTML,并注意到不同的提供商以不同的方式使用相同的标记.

例如,以下是使用元名称生成器标记的两个主要提供者:

Blogger :( 内容优先,名字稍后,是的,单引号!)

WordPress :( 名字第一,内容稍后)

有没有办法提取所有案例的内容价值(单/双引号,行中的第一个/最后一个)?

PS虽然我正在使用Java,但答案可能会帮助更多人,如果它通常用于正则表达式.



1> Brad Wilson..:

答案是:不要使用正则表达式.

认真.如果您碰巧知道它是有效的XML(可能几乎从来都不是真的),请使用SGML解析器或XML解析器.你绝对会搞砸并浪费大量的时间来试图把它弄好.只需使用已有的功能.

推荐阅读
kikokikolove
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有