11赞

正则表达式匹配除<p>和</ p>之外的所有HTML标记

作者：家具销售_903 | 2023-09-06 09:07

如何解决《正则表达式匹配除<p>和</p>之外的所有HTML标记》经验，为你挑选了3个好方法。

我需要使用Perl中的正则表达式匹配并删除所有标记.我有以下内容:

<\\??(?!p).+?>

但这仍然与结束

标签相匹配.关于如何与结束标签匹配的任何提示？

注意,这是在xhtml上执行的.

1> John Siracus..：

如果你坚持使用正则表达式,这样的东西在大多数情况下都会起作用:

# Remove all HTML except "p" tags
$html =~ s{<(?>/?)(?:[^pP]|[pP][^\s>/])[^>]*>}{}g;

说明:

s{
  <             # opening angled bracket
  (?>/?)        # ratchet past optional / 
  (?:
    [^pP]       # non-p tag
    |           # ...or...
    [pP][^\s>/] # longer tag that begins with p (e.g., )
  )
  [^>]*         # everything until closing angled bracket
  >             # closing angled bracket
 }{}gx; # replace with nothing, globally


但实际上,为自己省去一些麻烦并改为使用解析器.CPAN有几个适合的模块.下面是一个使用HTML :: TokeParser模块的示例,该模块附带了非常强大的HTML :: Parser CPAN发行版:

use strict;

use HTML::TokeParser;

my $parser = HTML::TokeParser->new('/some/file.html')
  or die "Could not open /some/file.html - $!";

while(my $t = $parser->get_token)
{
  # Skip start or end tags that are not "p" tags
  next  if(($t->[0] eq 'S' || $t->[0] eq 'E') && lc $t->[1] ne 'p');

  # Print everything else normally (see HTML::TokeParser docs for explanation)
  if($t->[0] eq 'T')
  {
    print $t->[1];
  }
  else
  {
    print $t->[-1];
  }
}


HTML :: Parser以文件名,打开文件句柄或字符串的形式接受输入.将上述代码包装在库中并使目标可配置(即,不仅仅是print如上所述)并不难.与尝试使用正则表达式相比,结果将更可靠,可维护,并且可能也更快(HTML :: Parser使用基于C的后端).

        

2> Jörg W Mitta..：
在我看来,试图用HTML解析器以外的任何东西解析HTML只是在寻求一个痛苦的世界.HTML是一种非常复杂的语言(这是创建XHTML的主要原因之一,它比HTML简单得多).

例如,这个:

 /
    


是一个完整的,100%格式良好,100%有效的HTML文档.(好吧,它缺少DOCTYPE声明,但除此之外......)

它在语义上等同于


  
    
      >
    
  
  
    
      >
    
  



但是,您将不得不处理有效的HTML.当然,您可以设计一个正则表达式来解析它,但是,正如其他人已经建议的那样,使用实际的HTML解析器要简单得多.

        

3> Xetius..：
我想出了这个:

<(?!\/?p(?=>|\s.*>))\/?.*?>

x/
<           # Match open angle bracket
(?!         # Negative lookahead (Not matching and not consuming)
    \/?     # 0 or 1 /
    p           # p
    (?=     # Positive lookahead (Matching and not consuming)
    >       # > - No attributes
        |       # or
    \s      # whitespace
    .*      # anything up to 
    >       # close angle brackets - with attributes
    )           # close positive lookahead
)           # close negative lookahead
            # if we have got this far then we don't match
            # a p tag or closing p tag
            # with or without attributes
\/?         # optional close tag symbol (/)
.*?         # and anything up to
>           # first closing tag
/


现在,这将处理带有或不带属性的p标签和关闭p标签,但会匹配pre和类似标签,有或没有属性.

它没有删除属性,但是我的源数据没有将它们放入.我可能会在稍后更改它,但这就足够了.

推荐阅读

程序员
浏览器同步未使用代理加载ASP.NET 5网站

如何解决《浏览器同步未使用代理加载ASP.NET5网站》经验，为你挑选了0个好方法。 ... [详细]
程序员
cakephp 3编辑用户用户名和密码 - 无法找到当前实体的表类

如何解决《cakephp3编辑用户用户名和密码-无法找到当前实体的表类》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用CodeIgniter http:// :: 1/codeigniter /在html源代码中的IP地址显示在表单操作中

如何解决《使用CodeIgniterhttp://::1/codeigniter/在html源代码中的IP地址显示在表单操作中》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用Matplotlib颤动刻度

如何解决《如何使用Matplotlib颤动刻度》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用C++ 14和C++ 1z中的功能缩短这个可变参数模板代码？

如何解决《如何使用C++14和C++1z中的功能缩短这个可变参数模板代码？》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何从包含的片段控制活动的向上按钮？

如何解决《如何从包含的片段控制活动的向上按钮？》经验，为你挑选了1个好方法。 ... [详细]
程序员
SSIS 2012日期格式为dmy vs mdy

如何解决《SSIS2012日期格式为dmyvsmdy》经验，为你挑选了0个好方法。 ... [详细]
程序员
NPM无法在OSX 10.9.5上安装zmq

如何解决《NPM无法在OSX10.9.5上安装zmq》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在不使用链接的情况下在Drupal 8中打开模态？

如何解决《如何在不使用链接的情况下在Drupal8中打开模态？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Gulp从SASS/SCSS中缩小和自动修复CSS文件

如何解决《如何使用Gulp从SASS/SCSS中缩小和自动修复CSS文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将变量和文件传递给perl -p -e命令

如何解决《如何将变量和文件传递给perl-p-e命令》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spree Guest电子邮件已保存

如何解决《SpreeGuest电子邮件已保存》经验，为你挑选了0个好方法。 ... [详细]
程序员
Spark中的嵌套JSON

如何解决《Spark中的嵌套JSON》经验，为你挑选了1个好方法。 ... [详细]
程序员
对和值之间的Java映射

如何解决《对和值之间的Java映射》经验，为你挑选了1个好方法。 ... [详细]
程序员
OpenID Connect Providers是否加密然后签署他们的JWT？

如何解决《OpenIDConnectProviders是否加密然后签署他们的JWT？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用ES6时,如何在一个文件中定义导入的函数,而在另一个文件中不定义？

如何解决《使用ES6时,如何在一个文件中定义导入的函数,而在另一个文件中不定义？》经验，为你挑选了2个好方法。 ... [详细]
程序员
openshift让我们加密证书

如何解决《openshift让我们加密证书》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用协议将案例添加到现有枚举

如何解决《使用协议将案例添加到现有枚举》经验，为你挑选了3个好方法。 ... [详细]
程序员
多项任务混淆

如何解决《多项任务混淆》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Core Data中存储Swift值类型

如何解决《在CoreData中存储Swift值类型》经验，为你挑选了1个好方法。 ... [详细]

家具销售_903

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章