当前位置:  开发笔记 > 编程语言 > 正文

如何解析网页并提取所有href链接?

如何解决《如何解析网页并提取所有href链接?》经验,为你挑选了1个好方法。

我想在Groovy中解析一个网页,并用它提取所有href链接和相关文本.

如果页面包含以下链接:

Google
Apple

输出将是:

Google, http://www.google.com
Apple, http://www.apple.com

我正在寻找一个Groovy的答案.AKA.简单的方法!



1> John Flinchb..:

假设结构良好的XHTML,啜饮xml,收集所有标签,找到'a'标签,并打印出href和文本.

input = """
John
Google
StackOverflow
"""

doc = new XmlSlurper().parseText(input)
doc.depthFirst().collect { it }.findAll { it.name() == "a" }.each {
    println "${it.text()}, ${it.@href.text()}"
}

推荐阅读
牛尾巴2010
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有