正则表达式从HTML中提取文本

作者：pan2502851807 | 2023-09-04 12:52

如何解决《正则表达式从HTML中提取文本》经验，为你挑选了3个好方法。

我想从一般HTML页面中提取所有文本(显示与否).

我想删除

任何HTML标签

任何javascript

任何CSS样式

是否有正则表达式(一个或多个)将实现这一目标？

1> nickf..：

删除javascript和CSS:

<(script|style).*?

删除标签

<.*?>

/<(.|\n)*？>/g将带您到天堂之城.

2> S.Lott..：

您无法使用正则表达式真正解析HTML.这太复杂了.RE根本不会正确处理部分.此外,某些常见的HTML内容<text>会在浏览器中作为正确的文本工作,但可能会让一个天真的RE感到困惑.



使用正确的HTML解析器,您会更快乐,更成功.Python人经常使用Beautiful Soup来解析HTML并删除标签和脚本.



此外,浏览器在设计上容忍格式错误的HTML.因此,您经常会发现自己试图解析明显不合适的HTML,但在浏览器中运行正常.

您可以使用RE解析错误的HTML.它需要的只是耐心和努力.但是使用别人的解析器通常更简单.

        
@monoxide:我的观点并非不可能.我的观点是,你可以通过使用其他正确处理所有边缘情况的解析器来节省大量RE的调试. 

3> Joe Bergevin..：
需要一个正则表达式解决方案(在PHP中),它将返回纯文本(或更好)PHPSimpleDOM,只是更快.这是我提出的解决方案:

function plaintext($html)
{
    // remove comments and any content found in the the comment area (strip_tags only removes the actual tags).
    $plaintext = preg_replace('##s', '', $html);

    // put a space between list items (strip_tags just removes the tags).
    $plaintext = preg_replace('##', ' ', $plaintext);

    // remove all script and style tags
    $plaintext = preg_replace('#<(script|style)\b[^>]*>(.*?)#is', "", $plaintext);

    // remove br tags (missed by strip_tags)
    $plaintext = preg_replace("#]*?>#", " ", $plaintext);

    // remove all remaining html
    $plaintext = strip_tags($plaintext);

    return $plaintext;
}


当我在一些复杂的网站上测试这个(论坛似乎包含一些更难解析的html)时,这个方法返回与PHPSimpleDOM明文相同的结果,只是更快,更快.它还正确处理了列表项(li标签),而PHPSimpleDOM没有.

至于速度:


SimpleDom:0.03248秒.
RegEx:0.00087秒.


快37倍!



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Symfony,Liip Imagine bundle在prod环境中不在服务器上工作
                    

                    
                                                
                        如何解决《Symfony,LiipImaginebundle在prod环境中不在服务器上工作》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        RSpec 3错误未定义的方法`get'在请求测试中
                    

                    
                                                
                        如何解决《RSpec3错误未定义的方法`get'在请求测试中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Python Pandas DataFrame:不可共享的类型:str()> int()
                    

                    
                                                
                        如何解决《PythonPandasDataFrame:不可共享的类型:str()>int()》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使Tomcat在443而不是默认端口8080上运行？
                    

                    
                                                
                        如何解决《如何使Tomcat在443而不是默认端口8080上运行？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法在'IDBDatabase'上执行'createObjectStore'
                    

                    
                                                
                        如何解决《无法在'IDBDatabase'上执行'createObjectStore'》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        grunt serve:concurrent:服务器因警告而中止
                    

                    
                                                
                        如何解决《gruntserve:concurrent:服务器因警告而中止》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在neo4j中插入数据的更快捷方式？
                    

                    
                                                
                        如何解决《在neo4j中插入数据的更快捷方式？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        快速语言中'#'标记的含义是什么？
                    

                    
                                                
                        如何解决《快速语言中'#'标记的含义是什么？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用javascript从数组对象中获取所有值？
                    

                    
                                                
                        如何解决《如何使用javascript从数组对象中获取所有值？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用RSpec测试rake任务？
                    

                    
                                                
                        如何解决《如何使用RSpec测试rake任务？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        最佳做法是跨多个线程使用静态数据库连接吗？
                    

                    
                                                
                        如何解决《最佳做法是跨多个线程使用静态数据库连接吗？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        合并Android Studio中的模块？
                    

                    
                                                
                        如何解决《合并AndroidStudio中的模块？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        无法指定矢量的初始大小
                    

                    
                                                
                        如何解决《无法指定矢量的初始大小》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        通过EL 3.0访问JSP中的静态属性或方法(JEE7; Tomcat 8)
                    

                    
                                                
                        如何解决《通过EL3.0访问JSP中的静态属性或方法(JEE7;Tomcat8)》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在子类中装饰继承的方法？
                    

                    
                                                
                        如何解决《如何在子类中装饰继承的方法？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        我们如何在给定的时间范围内阅读卡夫卡主题？
                    

                    
                                                
                        如何解决《我们如何在给定的时间范围内阅读卡夫卡主题？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Tkinter IntVar返回PY_VAR0而不是值
                    

                    
                                                
                        如何解决《TkinterIntVar返回PY_VAR0而不是值》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Oracle DB的隔离级别和JDBC的TRANSACTION_NONE属性
                    

                    
                                                
                        如何解决《OracleDB的隔离级别和JDBC的TRANSACTION_NONE属性》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么points.sort(function(a,b){return ab}); 返回-1,0或1？
                    

                    
                                                
                        如何解决《为什么points.sort(function(a,b){returnab});返回-1,0或1？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        BeautifulSoup有错误的回应
                    

                    
                                                
                        如何解决《BeautifulSoup有错误的回应》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                pan2502851807            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1使用Rcpp将包从建筑物恢复到Rstudio中没有Rcpp的建筑物
                
                                
                    2Nginx规则添加x-robots-tag标头
                
                                
                    3Intellij Scala类定义格式
                
                                
                    4是否有一个等效于R的sample()函数的Python？
                
                                
                    5使用ffmpeg快速检查目录中视频文件的完整性
                
                                
                    6如何在pyspark中更改数据框列名？
                
                                
                    7使用'bool'而不是'Boolean'的JQuery Typescript定义
                
                                
                    8是否可以在JavaScript中的变量名后面的新行上开始方法链接？
                
                                
                    9在javascript中将float转换为int的最快方法？
                
                                
                    10不使用cocoapods下载gos for ios
                
                                
                    11vim:gq在包装文本时忽略打开的引号
                
                                
                    12Swift包和冲突的依赖项
                
                                
                    13for循环中的函数表现得像一个闭包
                
                                
                    14Github:fork还是创建一个全新的Repository？
                
                                
                    15如何在Maven pom.xml上可变化shell脚本输出以使用
                
                                
                    16在FAST Search Server 2010 for Sharepoint中,如何将细化结果限制增加到100以上.
                
                                
                    17使用数组初始化List
                
                                
                    18如何在Youtube上检测页面导航并在呈现页面之前修改HTML？
                
                                
                    19d3.js中的多个家族树中的合作伙伴？
                
                                
                    20在文本文件中找不到字符串