14赞

正则表达式html文本中的链接

作者：N个小灰流_701 | 2023-09-01 10:28

如何解决《正则表达式html文本中的链接》经验，为你挑选了3个好方法。

我希望这个问题不是RTFM问题.我正在尝试编写一个Python脚本,从标准HTML网页(标签)中提取链接.我在网上搜索匹配的regexen,发现了许多不同的模式.是否有任何商定的标准正则表达式匹配链接？



亚当

更新: 
我实际上正在寻找两个不同的答案:  


什么是解析HTML链接的库解决方案.美丽的汤似乎是一个很好的解决方案(谢谢,Igal Serban和cletus!)   
可以使用正则表达式定义链接吗？

    
  




  
  
  

    

      

        cletus..
         17
      
      
使用HTML的正则表达起来很混乱.只需使用像Beautiful Soup这样的DOM解析器.


1> cletus..：
使用HTML的正则表达起来很混乱.只需使用像Beautiful Soup这样的DOM解析器.

        

2> Triptych..：
正如其他人所说,如果不需要实时性能,BeautifulSoup是一个很好的解决方案:

import urllib2
from BeautifulSoup import BeautifulSoup

html = urllib2.urlopen("http://www.google.com").read()
soup = BeautifulSoup(html)
all_links = soup.findAll("a")


至于第二个问题,是的,HTML链接应该是明确定义的,但实际遇到的HTML不太可能是标准的.BeautifulSoup的美妙之处在于它使用类似浏览器的启发式方法来尝试解析您可能实际遇到的非标准,格式错误的HTML.

如果您确定要使用标准XHTML,则可以使用(更多)更快的XML解析器,如expat.

正则表达式,由于上述原因(解析器必须维护状态,正则表达式不能这样做)永远不会是一般解决方案.

        

3> Igal Serban..：
不,没有.

你可以考虑使用美丽的汤.您可以将其称为解析html文件的标准.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        WSO2 DSS 3.5.0中的axis2_1.6.1.wso2v15找不到TCPTransportSender
                    

                    
                                                
                        如何解决《WSO2DSS3.5.0中的axis2_1.6.1.wso2v15找不到TCPTransportSender》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        编写LLVM后端编译的代码时,架构是否重要？
                    

                    
                                                
                        如何解决《编写LLVM后端编译的代码时,架构是否重要？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Kubernetes.HTTPS API返回"未授权"
                    

                    
                                                
                        如何解决《Kubernetes.HTTPSAPI返回"未授权"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        尽管存在图像，但BitmapFactory返回null
                    

                    
                                                
                        如何解决《尽管存在图像，但BitmapFactory返回null》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如果我们应用类型擦除,将在运行时调用哪些重载方法,为什么？
                    

                    
                                                
                        如何解决《如果我们应用类型擦除,将在运行时调用哪些重载方法,为什么？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在调试设置为true时才能在Django中创建代码
                    

                    
                                                
                        如何解决《如何在调试设置为true时才能在Django中创建代码》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        popen不会捕获命令的所有输出
                    

                    
                                                
                        如何解决《popen不会捕获命令的所有输出》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        注释处理器生成的资源未打包到APK
                    

                    
                                                
                        如何解决《注释处理器生成的资源未打包到APK》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Android  - 以编程方式显示键盘
                    

                    
                                                
                        如何解决《Android-以编程方式显示键盘》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Python-Twilio没有发送带有测试凭证的短信.
                    

                    
                                                
                        如何解决《Python-Twilio没有发送带有测试凭证的短信.》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Android闹钟事件被延迟
                    

                    
                                                
                        如何解决《Android闹钟事件被延迟》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何创建ECDSA密钥以进行身份验证？
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何创建ECDSA密钥以进行身份验证？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        具有null SrcName的GSSContext
                    

                    
                                                
                        如何解决《具有nullSrcName的GSSContext》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在TabLayout(材料设计)android中动态添加和删除选项卡
                    

                    
                                                
                        如何解决《在TabLayout(材料设计)android中动态添加和删除选项卡》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        字典键和值是否以相同的顺序枚举？
                    

                    
                                                
                        如何解决《字典键和值是否以相同的顺序枚举？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        与CollapsingToolbarLayout一起使用时,NestedScrollView不会滚动到结尾
                    

                    
                                                
                        如何解决《与CollapsingToolbarLayout一起使用时,NestedScrollView不会滚动到结尾》经验，为你挑选了3个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Swift 2.0:`print`函数生成"传递给不带参数的调用的参数"错误
                    

                    
                                                
                        如何解决《Swift2.0:`print`函数生成"传递给不带参数的调用的参数"错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ng-click功能影响所有ng-repeat元素
                    

                    
                                                
                        如何解决《ng-click功能影响所有ng-repeat元素》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        离子条件文本颜色
                    

                    
                                                
                        如何解决《离子条件文本颜色》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        c ++迭代器卡在第一个值
                    

                    
                                                
                        如何解决《c++迭代器卡在第一个值》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                N个小灰流_701            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1更有效的方法来编写这个算法？
                
                                
                    2Java toString()没有打印正确的变量
                
                                
                    3为什么这个循环被认为是数据竞争[Golang]
                
                                
                    4我试图创建新的JDBC资源时,在glassfish中类java.lang.RuntimeException
                
                                
                    5从逗号分隔的字符串中获取特定值
                
                                
                    6在C中反转字符串的最快方法
                
                                
                    7谷歌图片搜索说api不再可用
                
                                
                    8在Django 1.8中创建基于登录和注销类的视图
                
                                
                    9指向函数成员的指针:`R(*C ::*)(Args ...)`是什么意思？
                
                                
                    10Android中的视频编辑API
                
                                
                    11如何从源本地构建和安装Puppet模块？
                
                                
                    12Lucene按分数排序然后修改日期
                
                                
                    13xcode使用了错误的node.js版本
                
                                
                    14有条件地删除Matplotlib饼图中的标签
                
                                
                    15使用快速/ multer时更改文件名
                
                                
                    16为什么我从"Haskell中的函数编程"一书中复制的haskell代码无法成功解释？
                
                                
                    17SparkError:XXXX任务的序列化结果总大小(2.0 GB)大于spark.driver.maxResultSize(2.0 GB)
                
                                
                    18Android SDK Manager不会下载软件包
                
                                
                    19克隆卡在检查源上
                
                                
                    20服务工作者额外打电话