我需要一个RegEx模式来提取图像标记的所有属性.
众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.
我正在寻找这个解决方案/sf/ask/17360801/但它并没有完全得到它:
我提出的事情如下:
(alt|title|src|height|width)\s*=\s*["'][\W\w]+?["']
是否有任何可能性我会丢失或更有效的简单模式?
编辑:
对不起,我将更具体,我正在使用.NET这样做,所以它在服务器端.
我已经有了一个img标签列表,现在我只需要解析属性.
众所周知,那里存在大量格式错误的HTML,因此模式必须涵盖这些可能性.
它不会.如果必须解析"邪恶"(来自未知来源)HTML,请使用HTML解析器.