11赞

如何解析网页并提取所有href链接？

作者：牛尾巴2010 | 2023-09-05 12:18

如何解决《如何解析网页并提取所有href链接？》经验，为你挑选了1个好方法。

我想在Groovy中解析一个网页,并用它提取所有href链接和相关文本.

如果页面包含以下链接:

Google

Apple

输出将是:

Google, http://www.google.com

Apple, http://www.apple.com

我正在寻找一个Groovy的答案.AKA.简单的方法!

1> John Flinchb..：

假设结构良好的XHTML,啜饮xml,收集所有标签,找到'a'标签,并打印出href和文本.

input = """
John
Google
StackOverflow
"""

doc = new XmlSlurper().parseText(input)
doc.depthFirst().collect { it }.findAll { it.name() == "a" }.each {
    println "${it.text()}, ${it.@href.text()}"
}

推荐阅读

程序员
C#中的DPAPI密码加密并保存到数据库中.然后使用密钥对其进行解密

如何解决《C#中的DPAPI密码加密并保存到数据库中.然后使用密钥对其进行解密》经验，为你挑选了1个好方法。 ... [详细]
程序员
res.sendFile不是Node.js函数

如何解决《res.sendFile不是Node.js函数》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么函数适用于长列表？

如何解决《为什么函数适用于长列表？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么在客户端使用jsp？

如何解决《为什么在客户端使用jsp？》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么从已经上传的其他分支检出文件？

如何解决《为什么从已经上传的其他分支检出文件？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Flume Twitter Agent生成的Avro Text文件未在Java中读取

如何解决《FlumeTwitterAgent生成的AvroText文件未在Java中读取》经验，为你挑选了0个好方法。 ... [详细]
程序员
使用张量流的情感分析

如何解决《使用张量流的情感分析》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用linux内核4.3.0运行docker得到iptables nat错误

如何解决《使用linux内核4.3.0运行docker得到iptablesnat错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
行截断,参数列表中的语法错误

如何解决《行截断,参数列表中的语法错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
跨数据中心的单个Kubernetes/OpenShift集群/实例？

如何解决《跨数据中心的单个Kubernetes/OpenShift集群/实例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL JOIN WITH OR条件

如何解决《SQLJOINWITHOR条件》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python文档字符串（Sphinx）中的csv表格式-单个单元格中有多行

如何解决《Python文档字符串（Sphinx）中的csv表格式-单个单元格中有多行》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Go中递归一个闭包？

如何解决《如何在Go中递归一个闭包？》经验，为你挑选了1个好方法。 ... [详细]
程序员
MTOUCH:错误MT0024:找不到所需文件iPhoneSimulator9.0.sdk"/SDKSettings.plist

如何解决《MTOUCH:错误MT0024:找不到所需文件iPhoneSimulator9.0.sdk"/SDKSettings.plist》经验，为你挑选了1个好方法。 ... [详细]
程序员
Camel cxf:cxfEndpoint生产者错误:无法找到带有操作名称的BindingOperationInfo

如何解决《Camelcxf:cxfEndpoint生产者错误:无法找到带有操作名称的BindingOperationInfo》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2013 - 干净地禁用VSTEST Discovery Engine？

如何解决《VisualStudio2013-干净地禁用VSTESTDiscoveryEngine？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是否可以使用#define更改#include文件名？

如何解决《是否可以使用#define更改#include文件名？》经验，为你挑选了1个好方法。 ... [详细]
程序员
运行exe作为系统帐户

如何解决《运行exe作为系统帐户》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何让Spring Cloud Config服务器检查特定分支的配置？

如何解决《如何让SpringCloudConfig服务器检查特定分支的配置？》经验，为你挑选了3个好方法。 ... [详细]
程序员
jQuery Lightbox2无法正常工作

如何解决《jQueryLightbox2无法正常工作》经验，为你挑选了1个好方法。 ... [详细]

牛尾巴2010

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章