我想在Groovy中解析一个网页,并用它提取所有href链接和相关文本.
如果页面包含以下链接:
Apple
输出将是:
Google, http://www.google.com
Apple, http://www.apple.com
我正在寻找一个Groovy的答案.AKA.简单的方法!
假设结构良好的XHTML,啜饮xml,收集所有标签,找到'a'标签,并打印出href和文本.
input = """ John Google StackOverflow """ doc = new XmlSlurper().parseText(input) doc.depthFirst().collect { it }.findAll { it.name() == "a" }.each { println "${it.text()}, ${it.@href.text()}" }