我正在尝试从各种博客中获取一些HTML,并注意到不同的提供商以不同的方式使用相同的标记.
例如,以下是使用元名称生成器标记的两个主要提供者:
Blogger :( 内容优先,名字稍后,是的,单引号!)
WordPress :( 名字第一,内容稍后)
有没有办法提取所有案例的内容价值(单/双引号,行中的第一个/最后一个)?
PS虽然我正在使用Java,但答案可能会帮助更多人,如果它通常用于正则表达式.
答案是:不要使用正则表达式.
认真.如果您碰巧知道它是有效的XML(可能几乎从来都不是真的),请使用SGML解析器或XML解析器.你绝对会搞砸并浪费大量的时间来试图把它弄好.只需使用已有的功能.