我是正则表达式和类似的东西的新手.我只有很少的知识,我认为我目前的问题是关于他们的.
我有一个包含文字的网页.我想从网页上获得只有SPAN
s的链接class="img"
.
我经历了那些步骤.
抓住SPAN
用"img"类标记的所有s(这是我正在寻找的艰难步骤)
将这些SPAN
s 移动到一个新变量
解析变量以获得带有链接的数组(每个SPAN
只有1个链接,所以这很容易)
我正在使用PHP,但任何其他语言无所谓,我正在寻找如何处理第一步.有人有建议吗?感谢:D
将PHP DOMDocument -class与DOMXPath -class 结合使用以导航到您需要的元素,如下所示:
loadHTML(file_get_contents('http://foo.bar')); $xpath = new DOMXPath($dom);$elements = $xpath->query("/html/body//span[@class='img']//a"); foreach ($elements as $a) { echo $a->getAttribute('href'), "\n"; }
您可以在W3C页面上了解有关XPath语言的更多信息.