7赞

正则表达式提取HTML正文内容

作者：郑谊099_448 | 2023-09-02 08:46

如何解决《正则表达式提取HTML正文内容》经验，为你挑选了3个好方法。

我正在寻找一个正则表达式语句,让我从XHTML文档的body标签之间提取HTML内容.

我需要解析的XHTML将是非常简单的文件,例如,我不必担心JavaScript内容或标签.



下面是我要解析的HTML文件的预期结构.由于我完全知道我将要使用的HTML文件的所有内容,因此这个HTML代码段几乎涵盖了我的整个用例.如果我能得到一个正则表达式来提取这个例子的主体,我会很高兴.



  
    
    
  
  
    
      Example paragraph content
    
    
       
    
    
      

       
    
    Header 1
  



从概念上讲,我一直在尝试构建一个匹配内部正文内容的所有正则表达式字符串.有了这个,我会使用C#Regex.Split()方法来获取正文内容.我以为这个正则表达式:

((.|\n)*)|(((*|\n)*)


...会有所作为,但它似乎与我在RegexBuddy中的测试内容完全无关.


1> VonC..：
这会有用吗？

((?:.(?!]*>))+.]*>)|(.+)


当然,您需要添加必要\s的内容以便考虑<  body ...>(带空格的元素),如:

((?:.(?!<\s*body[^>]*>))+.<\s*body[^>]*>)|(<\s*/\s*body\s*\>.+)


第二个想法,我不确定为什么我需要一个负面的预测...这也应该有效(对于格式良好的xhtml文档):

(.*<\s*body[^>]*>)|(<\s*/\s*body\s*\>.+)

        

2> Karl..：
使用XML解析器比使用正则表达式更容易解析XHTML.我知道这不是你问的问题,但是XML解析器能够快速导航到body节点并返回其内容,而不会出现正则表达式给你的任何标记映射问题.

编辑:回应此处的评论; XML解析器太慢了.

有两种XML解析器,一种叫做DOM,大而重,简单友好,它可以在你做任何事情之前从文档中构建一棵树.另一个叫做SAX,速度快,工作量大,顺序读取文件.您将希望SAX找到Body标签.

DOM方法适用于多种用途,提取标签并查找谁是孩子.SAX解析器按顺序读取文件,然后快速获取您所需的信息.正则表达式不会比SAX解析器快,因为它们都只是遍历文件和模式匹配,除了正则表达式在找到正文标记后不会退出,因为正则表达式没有内置XML知识.实际上,您的SAX解析器可能使用小块正则表达式来查找每个标记.  

        
没有理由重新发明轮子.如果它是XHTML,它是XML,而XML解析器就是工作的工具.+1 

3> 小智..：
String toMatch="aaaaaaaaaaabcxx sldjfkvnlkfd i m avinash";
Pattern pattern=Pattern.compile(".*?(.*?).*?");
Matcher matcher=pattern.matcher(toMatch);
if(matcher.matches()) {
    System.out.println(matcher.group(1));
}



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Clojure  - 处理内存不足的大文件
                    

                    
                                                
                        如何解决《Clojure-处理内存不足的大文件》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        不能使用jsplumb与第二个功能
                    

                    
                                                
                        如何解决《不能使用jsplumb与第二个功能》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        设置locationpicker.jquery.js的当前用户位置
                    

                    
                                                
                        如何解决《设置locationpicker.jquery.js的当前用户位置》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何将日期值插入表中
                    

                    
                                                
                        如何解决《如何将日期值插入表中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        退出并返回QML的返回码
                    

                    
                                                
                        如何解决《退出并返回QML的返回码》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用RAML处理Mule流中的多种安全方案的最佳方法是什么？
                    

                    
                                                
                            
                        
                                                
                        如何解决《使用RAML处理Mule流中的多种安全方案的最佳方法是什么？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        laravel querybuilder如何在其中使用函数
                    

                    
                                                
                        如何解决《laravelquerybuilder如何在其中使用函数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用自动增量字符创建自定义列
                    

                    
                                                
                        如何解决《如何使用自动增量字符创建自定义列》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在擦除 - 删除习语中使用UnaryPredicate的否定
                    

                    
                                                
                        如何解决《在擦除-删除习语中使用UnaryPredicate的否定》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用select元素从datatable导出数据会从select元素导出每个选项
                    

                    
                                                
                        如何解决《使用select元素从datatable导出数据会从select元素导出每个选项》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        理解"cat proc/net/udp"
                    

                    
                                                
                        如何解决《理解"catproc/net/udp"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用TypeConverter将字符串转换为字符串数组
                    

                    
                                                
                        如何解决《使用TypeConverter将字符串转换为字符串数组》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何从PHP中的html页面中删除H2和H3标签？
                    

                    
                                                
                        如何解决《如何从PHP中的html页面中删除H2和H3标签？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        转移具有应用内订阅的iOS应用
                    

                    
                                                
                        如何解决《转移具有应用内订阅的iOS应用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用jQuery显示JSON数据
                    

                    
                                                
                            
                        
                                                
                        如何解决《使用jQuery显示JSON数据》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何每1分钟在后台运行服务
                    

                    
                                                
                        如何解决《如何每1分钟在后台运行服务》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何用h5py区分HDF5数据集和组？
                    

                    
                                                
                        如何解决《如何用h5py区分HDF5数据集和组？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么有std :: not1()和std :: not2()而不是一个重载的std :: not_()？
                    

                    
                                                
                        如何解决《为什么有std::not1()和std::not2()而不是一个重载的std::not_()？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何检查动态数组是否为空？
                    

                    
                                                
                        如何解决《如何检查动态数组是否为空？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么要使用CDN(内容分发网络)？
                    

                    
                                                
                        如何解决《为什么要使用CDN(内容分发网络)？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                郑谊099_448            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1如何在点图表中清除绘制的值？
                
                                
                    2Rails:validates_length_of
                
                                
                    3如何在Typescript接口文件中表示返回类型？
                
                                
                    4从@EmbeddedId类中提取超类时,实体没有持久的id属性
                
                                
                    5使用Volley请求发送身份验证信息
                
                                
                    6在java age计算中返回错误的值
                
                                
                    7在API级别19以下的Android中选择文件或图像时,如何限制Google驱动器选项不显示？
                
                                
                    8访问包含在匿名类型或Object类中的字段
                
                                
                    9无法让pyspark作业在hadoop群集的所有节点上运行
                
                                
                    10将"Arial"设置为Sitecore文本编辑器中的默认字体
                
                                
                    11使用高级API从特定偏移量开始读取kafka消息
                
                                
                    12试图在MultiDex应用程序中测试Android模块,com.android.test.runner.MultiDexTestRunner无法识别
                
                                
                    13CSS放在名称的圆圈第一个字母中
                
                                
                    14如何正确叠加图层列表中的位图和形状
                
                                
                    15Passport和connect-flash:req.flash不是一个函数
                
                                
                    16暂时以编程方式禁用Qt中的屏幕旋转
                
                                
                    17MVC RazorGenerator-“类型（...）已经定义了具有相同参数类型的名为'Execute'的成员”
                
                                
                    18PHP日期实际年份
                
                                
                    19滑动BottomSheet像谷歌地图
                
                                
                    20如何查看英特尔ICC编译器上启用了哪些编译选项？