16赞

如何在Perl中从HTML中提取URL和链接文本？

作者：乐韵答题 | 2023-09-03 13:26

如何解决《如何在Perl中从HTML中提取URL和链接文本？》经验，为你挑选了5个好方法。

我之前曾在Groovy中询问过如何做到这一点.但是,由于所有CPAN库,现在我在Perl中重写我的应用程序.

如果页面包含以下链接:

Google

Apple

输出将是:

Google, http://www.google.com
Apple, http://www.apple.com

在Perl中执行此操作的最佳方法是什么？

1> Andy Lester..：

请看一下使用WWW :: Mechanize模块.它将为您提取您的网页,然后让您轻松使用URL列表.

my $mech = WWW::Mechanize->new();
$mech->get( $some_url );
my @links = $mech->links();
for my $link ( @links ) {
    printf "%s, %s\n", $link->text, $link->url;
}

非常简单,如果您希望导航到该页面上的其他URL,它甚至更简单.

Mech基本上是对象中的浏览器.

我冒昧地改变了print语句,包含了melling所要求的链接文本.

2> Sherm Pendle..：

看看HTML :: LinkExtractor和HTML :: LinkExtor,HTML :: Parser包的一部分.

HTML :: LinkExtractor类似于HTML :: LinkExtor,除了获取URL之外,您还可以获得链接文本.

3> draegtun..：

我喜欢用pQuery这样的东西......

use pQuery;

pQuery( 'http://www.perlbuzz.com' )->find( 'a' )->each(
    sub {
        say $_->innerHTML . q{, } . $_->getAttribute( 'href' );
    }
);

另请查看此前的stackoverflow.com问题仿真lex,如Perl或Python中的功能,以获得类似的答案.

4> 小智..：

如果您喜欢冒险并且想要在没有模块的情况下尝试,那么这样的事情应该有效(根据您的需求进行调整):

#!/usr/bin/perl

if($#ARGV < 0) {
  print "$0: Need URL argument.\n";
  exit 1;
}

my @content = split(/\n/,`wget -qO- $ARGV[0]`);
my @links = grep(//,@content);

foreach my $c (@links){
  $c =~ //;
  $link = $1;
  $c =~ /([\s\S]+?)<\/a>/;
  $title = $1;
  print "$title, $link\n";
}

我可能在这里做了一些错误的事情,但它在我写完之后试过的一些测试用例中起作用(它没有考虑像标签之类的东西等).

5> Alexandr Cio..：

另一种方法是使用XPath查询已解析的HTML.在复杂的情况下需要它,比如使用特定的类提取div中的所有链接.为此使用HTML :: TreeBuilder :: XPath.

  my $tree=HTML::TreeBuilder::XPath->new_from_content($c);
  my $nodes=$tree->findnodes(q{//map[@name='map1']/area});
  while (my $node=$nodes->shift) {
    my $t=$node->attr('title');
  }

另外,添加$ tree-> delete以避免内存泄漏.

推荐阅读

程序员
具有数据绑定的聚合物铁-ajax元素参数将参数分成单个字符

如何解决《具有数据绑定的聚合物铁-ajax元素参数将参数分成单个字符》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么会出现致命错误:安装PyYAML时找不到'yaml.h'文件？

如何解决《为什么会出现致命错误:安装PyYAML时找不到'yaml.h'文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Xcode UI测试脚本中执行点击和拖动操作？

如何解决《如何在XcodeUI测试脚本中执行点击和拖动操作？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何像黄瓜Ruby的puts一样在黄瓜JVM中捕获STDOUT？

如何解决《如何像黄瓜Ruby的puts一样在黄瓜JVM中捕获STDOUT？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在woocommerce_email_customer_details或电子邮件的任何其他部分中添加新字段

如何解决《在woocommerce_email_customer_details或电子邮件的任何其他部分中添加新字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
R:如何更改ggplot中的配色方案(需要14种颜色)

如何解决《R:如何更改ggplot中的配色方案(需要14种颜色)》经验，为你挑选了1个好方法。 ... [详细]
程序员
何时使用机器epsilon何时不使用？

如何解决《何时使用机器epsilon何时不使用？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如果你不能用你给它们的名字真正引用它们,那么命名函数表达式有什么意义呢？

如何解决《如果你不能用你给它们的名字真正引用它们,那么命名函数表达式有什么意义呢？》经验，为你挑选了2个好方法。 ... [详细]
程序员
一个隐含的try {}抓住了main

如何解决《一个隐含的try{}抓住了main》经验，为你挑选了1个好方法。 ... [详细]
程序员
(设置)swift中的关键字

如何解决《(设置)swift中的关键字》经验，为你挑选了1个好方法。 ... [详细]
程序员
kendo ui imagebrowser默认图像文件夹

如何解决《kendouiimagebrowser默认图像文件夹》经验，为你挑选了0个好方法。 ... [详细]
程序员
Selenium Crashing:Chrome自动化扩展已经崩溃

如何解决《SeleniumCrashing:Chrome自动化扩展已经崩溃》经验，为你挑选了2个好方法。 ... [详细]
程序员
线程内存布局

如何解决《线程内存布局》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何让bootstrap模式从底部淡入？

如何解决《如何让bootstrap模式从底部淡入？》经验，为你挑选了1个好方法。 ... [详细]
程序员
PhP导出.csv将分隔符从逗号更改为其他人

如何解决《PhP导出.csv将分隔符从逗号更改为其他人》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法链接到HTML中的CSS

如何解决《无法链接到HTML中的CSS》经验，为你挑选了1个好方法。 ... [详细]
程序员
InnoDB怎么可能在一行上死锁？

如何解决《InnoDB怎么可能在一行上死锁？》经验，为你挑选了0个好方法。 ... [详细]
程序员
仅返回BigQuery表中包含重复项的最新行

如何解决《仅返回BigQuery表中包含重复项的最新行》经验，为你挑选了1个好方法。 ... [详细]
程序员
在C中,为什么"signed int"比"unsigned int"更快？

如何解决《在C中,为什么"signedint"比"unsignedint"更快？》经验，为你挑选了2个好方法。 ... [详细]
程序员
"Angular 2.0 for TypeScript"(alpha)动画如何工作？

如何解决《"Angular2.0forTypeScript"(alpha)动画如何工作？》经验，为你挑选了1个好方法。 ... [详细]

乐韵答题

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章