11赞

如何匹配HTML中不在标签内的文本？

作者：惬听风吟jyy_802 | 2023-08-30 12:57

如何解决《如何匹配HTML中不在标签内的文本？》经验，为你挑选了2个好方法。

给出这样的字符串:

This is the foo link

...和像"foo"这样的搜索字符串,我想强调HTML文本中出现的所有"foo" - 但不在标签内.换句话说,我想得到这个:

This is the foo link

但是,简单的搜索和替换将不起作用,因为它将匹配标记的href中的部分URL.

因此,要以问题的形式表达上述内容:如何限制正则表达式以使其仅匹配HTML标记之外的文本？

注意:我保证有问题的HTML永远不会像任何病态一样:

编辑:是的,当然我知道CPAN中有复杂的库可以解析最令人发指的HTML,从而减少了对这种正则表达式的需求.在很多场合,这就是我会用的.但是,这不是其中之一,因为保持此脚本简短而没有外部依赖性非常重要.我只想要一行正则表达式.

编辑2:同样,我知道Template :: Refine :: Fragment可以解析我的所有HTML.如果我正在写一个应用程序我当然会使用这样的解决方案.但这不是一个应用程序.它只不过是一个shell脚本.这是一个一次性代码.在这种情况下,作为一个可以传递的单个自包含文件非常有价值."嘿,运行这个程序"是比一个简单得多的指令,"嘿,安装一个Perl模块,然后运行它 - 等等,什么,你以前从未使用过CPAN？好的,运行perl -MCPAN -e shell(最好作为根)然后它会问你一堆问题,但你真的不需要回答它们.不,不要害怕,这不会破坏任何东西.看,你不需要仔细回答每一个问题 - 只要一遍又一遍地进入.不,我保证,它不会破坏任何东西."

现在将上述内容扩展到大量用户,他们想知道为什么他们一直使用的简单脚本不再那么简单,当所有改变的是使搜索词变为粗体时.

因此,虽然Template :: Refine :: Fragment可能是其他人的HTML解析问题的答案,但这不是这个问题的答案.我只想要一个正则表达式,它适用于非常有限的HTML子集,实际上会要求脚本进行解析.

1> David Z..：

如果您可以绝对保证HTML中没有尖括号,而不是用于打开和关闭标记的尖括号,这应该有效:

s%(>|\G)([^<]*?)($key)%$1$2$3%g

2> jrockway..：

通常,您希望将HTML解析为DOM,然后遍历文本节点.我会使用Template :: Refine:

#!/usr/bin/env perl

use strict;
use warnings;
use feature ':5.10';

use Template::Refine::Fragment;

my $frag = Template::Refine::Fragment->new_from_string('Hello, world.  This is a test of foo finding.  Here is another foo.');

say $frag->process(
    simple_replace {
        my $n = shift;
        my $text = $n->textContent;
        $text =~ s/foo//g;
        return XML::LibXML::Text->new($text);
    } '//text()',
)->render;

这输出:

Hello, world.  This is a test of <foo> finding.  Here is another <foo>.

无论如何,不要使用正则表达式解析结构化数据.HTML不是"常规",而是"无上下文".

编辑:最后,如果你在程序中生成HTML,你必须在字符串上进行这样的转换,"UR DOIN IT WONG".您应该构建一个DOM,并且只在转换完所有内容后对其进行序列化.(但是,您仍然可以通过new_from_dom构造函数使用TR .)

推荐阅读

程序员
Cron Job仅限特定月份

如何解决《CronJob仅限特定月份》经验，为你挑选了2个好方法。 ... [详细]
程序员
来自EditText动画的TextView就像在LinkedIn上一样

如何解决《来自EditText动画的TextView就像在LinkedIn上一样》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中反转列表切片

如何解决《在python中反转列表切片》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么我的查询结果返回false

如何解决《为什么我的查询结果返回false》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python多处理池卡住了

如何解决《Python多处理池卡住了》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有一种程序化的方法来绕过MIUI手机上的内存清理器？

如何解决《有没有一种程序化的方法来绕过MIUI手机上的内存清理器？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Windows 10 Universal App中从JavaScript调用C#组件

如何解决《在Windows10UniversalApp中从JavaScript调用C#组件》经验，为你挑选了0个好方法。 ... [详细]
程序员
应该通过提交调用完成此事务

如何解决《应该通过提交调用完成此事务》经验，为你挑选了1个好方法。 ... [详细]
程序员
任务执行失败':app:shrinkReleaseMultiDexComponents'

如何解决《任务执行失败':app:shrinkReleaseMultiDexComponents'》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android - 自定义按钮,具有形状可绘制和渐变编程

如何解决《Android-自定义按钮,具有形状可绘制和渐变编程》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么heroku local:run想要使用全局python安装而不是当前激活的虚拟环境？

如何解决《为什么herokulocal:run想要使用全局python安装而不是当前激活的虚拟环境？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python类中的继承顺序

如何解决《Python类中的继承顺序》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google语音识别API:每个字的时间戳？

如何解决《Google语音识别API:每个字的时间戳？》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么在变量中存储值会改变相等比较的结果？

如何解决《为什么在变量中存储值会改变相等比较的结果？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Symfony2的Docker容器中的权限问题

如何解决《Symfony2的Docker容器中的权限问题》经验，为你挑选了1个好方法。 ... [详细]
程序员
Java Stream:有没有办法迭代一次取两个元素而不是一个？

如何解决《JavaStream:有没有办法迭代一次取两个元素而不是一个？》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何在scrollView中显示相邻的卡？

如何解决《如何在scrollView中显示相邻的卡？》经验，为你挑选了1个好方法。 ... [详细]
程序员
C#ColorMatrix索引超出界限

如何解决《C#ColorMatrix索引超出界限》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Java中读取相同的文件两次？

如何解决《如何在Java中读取相同的文件两次？》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用随机访问迭代器调用模板函数

如何解决《使用随机访问迭代器调用模板函数》经验，为你挑选了1个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章