14赞

在Python中验证(X)HTML

作者：手机用户2502851955 | 2023-09-06 01:13

如何解决《在Python中验证(X)HTML》经验，为你挑选了5个好方法。

什么是验证文档是否遵循某些HTML版本(最好是我可以指定)的最佳方法？我希望能够知道故障发生的位置,就像在基于Web的验证器中一样,除了在本机Python应用程序中.

1> 小智..：

PyTidyLib是HTML Tidy的一个很好的python绑定.他们的例子:

from tidylib import tidy_document
document, errors = tidy_document('''fõo ''',
    options={'numeric-entities':1})
print document
print errors

此外,它兼容遗留的HTML Tidy和新的tidy-html5.

Debian中的软件包:python-tidylib

2> Martin Hepp..：

我认为它是最优雅的方式来调用W3C验证服务

http://validator.w3.org/

编程.很少有人知道你不必屏幕抓取结果才能得到结果,因为服务返回非标准的HTTP标头参数

X-W3C-Validator-Recursion: 1
X-W3C-Validator-Status: Invalid (or Valid)
X-W3C-Validator-Errors: 6
X-W3C-Validator-Warnings: 0

用于指示错误和警告的有效性和数量.

例如,命令行

curl -I "http://validator.w3.org/check?uri=http%3A%2F%2Fwww.stalsoft.com"

回报

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 15:23:58 GMT
Server: Apache/2.2.9 (Debian) mod_python/3.3.1 Python/2.5.2
Content-Language: en
X-W3C-Validator-Recursion: 1
X-W3C-Validator-Status: Invalid
X-W3C-Validator-Errors: 6
X-W3C-Validator-Warnings: 0
Content-Type: text/html; charset=UTF-8
Vary: Accept-Encoding
Connection: close

因此,您可以优雅地调用W3C验证服务并从HTTP标头中提取结果:

# Programmatic XHTML Validations in Python
# Martin Hepp and Alex Stolz
# mhepp@computer.org / alex.stolz@ebusiness-unibw.org

import urllib
import urllib2

URL = "http://validator.w3.org/check?uri=%s"
SITE_URL = "http://www.heppnetz.de"

# pattern for HEAD request taken from 
# http://stackoverflow.com/questions/4421170/python-head-request-with-urllib2

request = urllib2.Request(URL % urllib.quote(SITE_URL))
request.get_method = lambda : 'HEAD'
response = urllib2.urlopen(request)

valid = response.info().getheader('X-W3C-Validator-Status')
if valid == "Valid":
    valid = True
else:
    valid = False
errors = int(response.info().getheader('X-W3C-Validator-Errors'))
warnings = int(response.info().getheader('X-W3C-Validator-Warnings'))

print "Valid markup: %s (Errors: %i, Warnings: %i) " % (valid, errors, warnings)


        
W3C Validator还有一个完整的Web服务API和一个绑定它的Python:https://bitbucket.org/nmb10/py_w3c 

3> John Milliki..：
XHTML很简单,使用lxml.

HTML更难,因为传统上对HTML人群的验证没有那么大的兴趣(通过验证器运行StackOverflow本身,yikes).最简单的解决方案是执行外部应用程序,如nsgmls或OpenJade,然后解析其输出.

        

4> karlcow..：
您可以决定在本地安装HTML验证程序并创建客户端以请求验证. 

在这里,我创建了一个程序来验证txt文件中的url列表.我只是检查HEAD以获得验证状态,但是如果你进行GET,你将获得完整的结果.查看验证器的API,有很多选项.

import httplib2
import time

h = httplib2.Http(".cache")

f = open("urllistfile.txt", "r")
urllist = f.readlines()
f.close()

for url in urllist:
   # wait 10 seconds before the next request - be nice with the validator
   time.sleep(10)
   resp= {}
   url = url.strip()
   urlrequest = "http://qa-dev.w3.org/wmvs/HEAD/check?doctype=HTML5&uri="+url
   try:
      resp, content = h.request(urlrequest, "HEAD")
      if resp['x-w3c-validator-status'] == "Abort":
         print url, "FAIL"
      else:
         print url, resp['x-w3c-validator-status'], resp['x-w3c-validator-errors'], resp['x-w3c-validator-warnings']
   except:
      pass

        
可悲的是,`html5lib` [不验证](http://stackoverflow.com/a/29992363/593047). 

5> Aaron Maenpa..：
试试tidylib.您可以获得一些非常基本的绑定作为elementtidy模块的一部分(从HTML文档构建元素树).http://effbot.org/downloads/#elementtidy

>>> import _elementtidy
>>> xhtml, log = _elementtidy.fixup("")
>>> print log
line 1 column 1 - Warning: missing  declaration
line 1 column 7 - Warning: discarding unexpected 
line 1 column 14 - Warning: inserting missing 'title' element


解析日志应该可以为您提供所需的一切.



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        Apple News使用什么来确定何时显示图像？
                    

                    
                                                
                        如何解决《AppleNews使用什么来确定何时显示图像？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Nodejs承诺不能正常工作？
                    

                    
                                                
                        如何解决《Nodejs承诺不能正常工作？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Spring Stomp Web Sockets Client for Android
                    

                    
                                                
                        如何解决《SpringStompWebSocketsClientforAndroid》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ObjectList/Repeater的QML DefaultProperty
                    

                    
                                                
                        如何解决《ObjectList/Repeater的QMLDefaultProperty》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何在IntelliJ中一次对多个错误应用“快速修复”？
                    

                    
                                                
                            
                        
                                                
                        如何解决《如何在IntelliJ中一次对多个错误应用“快速修复”？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        给出ReferenceError的mocha命令:未定义窗口
                    

                    
                                                
                        如何解决《给出ReferenceError的mocha命令:未定义窗口》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何使用PHP获取服务器响应时间
                    

                    
                                                
                        如何解决《如何使用PHP获取服务器响应时间》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        CUDA流压缩算法
                    

                    
                                                
                        如何解决《CUDA流压缩算法》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        ListView.set.adapter导致NullPointerException
                    

                    
                                                
                        如何解决《ListView.set.adapter导致NullPointerException》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如果在Swift中为nil,那么赋值的速记？
                    

                    
                                                
                        如何解决《如果在Swift中为nil,那么赋值的速记？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        警告:"pecl/mongo"已弃用,以支持"channel:/// mongodb"
                    

                    
                                                
                        如何解决《警告:"pecl/mongo"已弃用,以支持"channel:///mongodb"》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        条纹Webhook响应
                    

                    
                                                
                        如何解决《条纹Webhook响应》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用dplyr删除所有列总和为零
                    

                    
                                                
                        如何解决《使用dplyr删除所有列总和为零》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在C中请求密码程序
                    

                    
                                                
                        如何解决《在C中请求密码程序》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在PHP7 Apache/2.4.7(Ubuntu)上安装phpmyadmin时遇到问题
                    

                    
                                                
                            
                        
                                                
                        如何解决《在PHP7Apache/2.4.7(Ubuntu)上安装phpmyadmin时遇到问题》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用javascript正则表达式从字符串中提取子字符串
                    

                    
                                                
                        如何解决《使用javascript正则表达式从字符串中提取子字符串》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在laravel 4中使用bootstrap datepicker时,在昨天之前禁用日期
                    

                    
                                                
                        如何解决《在laravel4中使用bootstrapdatepicker时,在昨天之前禁用日期》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在HTML5 SharedWorker中的socket.io Websocket连接
                    

                    
                                                
                        如何解决《在HTML5SharedWorker中的socket.ioWebsocket连接》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        使用mongo风格的语法从数组而不是Mongo集合中查询内存中的JavaScript对象？
                    

                    
                                                
                        如何解决《使用mongo风格的语法从数组而不是Mongo集合中查询内存中的JavaScript对象？》经验，为你挑选了0个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        试图重现"必须声明一个正文"编译器错误
                    

                    
                                                
                            
                        
                                                
                        如何解决《试图重现"必须声明一个正文"编译器错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                手机用户2502851955            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1如何在.gdbinit中指定silent/quiet
                
                                
                    2无法在Android Studio中更新JDK位置
                
                                
                    3在相同片段的不同实例之间进行通信
                
                                
                    4C++ 11如何通过int值获取枚举类值？
                
                                
                    5安装和注册shell扩展上下文菜单来自wix安装程序
                
                                
                    6如何使用retofit2和RxAndroid取消请求
                
                                
                    7为什么非const std :: array :: operator []不是constexpr？
                
                                
                    8如何使用CSS水平居中链接元素？
                
                                
                    9更改字符时拆分字符串
                
                                
                    10PEAR和Composer有什么区别？
                
                                
                    11哪一个是有效的初始化变量ie)构造函数或激活方法？
                
                                
                    12如何使用正则表达式对列表元素进行排序？
                
                                
                    13使用Swift中的UITextView属性自定义UIView的加载时间较慢
                
                                
                    14什么时候应该使用静态数据成员与const全局变量？
                
                                
                    15如何保持cts:从匹配内部XML标签突出显示？
                
                                
                    16IIS配置错误 - 此配置部分不能在此路径中使用
                
                                
                    17保护和加密多租户云应用程序的共享数据库中的数据
                
                                
                    18如何在不编写长查询的情况下查询所有GraphQL类型字段？
                
                                
                    19拖放将自定义HTML拖放为拖动图像
                
                                
                    20C中三个有效值的平均值