7赞

用于从格式错误的html页面中提取文本的Python策略

作者：U友50081205_653 | 2023-08-17 09:18

如何解决《用于从格式错误的html页面中提取文本的Python策略》经验，为你挑选了1个好方法。

我正在尝试从任意html页面中提取文本.有些页面(我无法控制)有错误的html或脚本,这使得这很困难.此外,我在一个共享的托管环境,所以我可以安装任何python库,但我不能只在服务器上安装我想要的东西.

pyparsing和html2text.py似乎也不适用于格式错误的html页面.

示例URL是http://apnews.myway.com/article/20091015/D9BB7CGG1.html

我目前的实施大致如下:

# Try using BeautifulSoup 3.0.7a
soup = BeautifulSoup.BeautifulSoup(s) 
comments = soup.findAll(text=lambda text:isinstance(text,Comment))
[comment.extract() for comment in comments]
c=soup.findAll('script')
for i in c:
    i.extract()    
body = bsoup.body(text=True)
text = ''.join(body) 
# if BeautifulSoup  can't handle it, 
# alter html by trying to find 1st instance of  ""
# try beautifulsoup again with new html

如果beautifulsoup仍然不起作用,那么我采用一种启发式方法来查看第一个字符,最后一个字符(看看它们是否看起来像是一个代码行#<;然后取一行代码然后检查是否有令牌是英文单词或数字.如果很少的标记是单词或数字,那么我猜这行是代码.

我可以使用机器学习来检查每一行,但这看起来有点贵,我可能需要训练它(因为我不太了解无监督的学习机器),当然也可以写它.

任何建议,工具和策略都是最受欢迎的.此外,我意识到后一部分相当混乱,因为如果我得到一行确定包含代码,我现在扔掉整行,即使行中有少量实际的英文文本.

1> Jonathan Fei..：

尽量不要笑,但是:

class TextFormatter:
    def __init__(self,lynx='/usr/bin/lynx'):
        self.lynx = lynx

    def html2text(self, unicode_html_source):
        "Expects unicode; returns unicode"
        return Popen([self.lynx, 
                      '-assume-charset=UTF-8', 
                      '-display-charset=UTF-8', 
                      '-dump', 
                      '-stdin'], 
                      stdin=PIPE, 
                      stdout=PIPE).communicate(input=unicode_html_source.encode('utf-8'))[0].decode('utf-8')

我希望你有lynx!

推荐阅读

程序员
从moment.js对象中删除时区

如何解决《从moment.js对象中删除时区》经验，为你挑选了3个好方法。 ... [详细]
程序员
如果不首先删除侦听器,重新分配数据源是否会导致内存泄漏？

如何解决《如果不首先删除侦听器,重新分配数据源是否会导致内存泄漏？》经验，为你挑选了0个好方法。 ... [详细]
程序员
numpy的标准偏差

如何解决《numpy的标准偏差》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找通过url传递的变量数量

如何解决《查找通过url传递的变量数量》经验，为你挑选了1个好方法。 ... [详细]
程序员
WebApp部署到Azure

如何解决《WebApp部署到Azure》经验，为你挑选了1个好方法。 ... [详细]
程序员
TestNG启动期间发生内部错误

如何解决《TestNG启动期间发生内部错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
在没有Marshal.Copy或Unsafe的情况下在C ++中更新C＃数组

如何解决《在没有Marshal.Copy或Unsafe的情况下在C++中更新C＃数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
DRF:验证后但在创建之前删除模型序列化程序上的字段(在CreateAPIView上)

如何解决《DRF:验证后但在创建之前删除模型序列化程序上的字段(在CreateAPIView上)》经验，为你挑选了1个好方法。 ... [详细]
程序员
angular bootstrap typeahead将ng-model设置为对象而不是单个字段

如何解决《angularbootstraptypeahead将ng-model设置为对象而不是单个字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何重命名与嵌套JSON对应的DataFrame中的字段

如何解决《如何重命名与嵌套JSON对应的DataFrame中的字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Entity Framework中比较日期的最佳方法

如何解决《在EntityFramework中比较日期的最佳方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从字符串流中的相同位置读取两次？

如何解决《如何从字符串流中的相同位置读取两次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何根据子域数组约束Rails路由？

如何解决《如何根据子域数组约束Rails路由？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Python 2,在简单的情况下映射不等同于列表推导; 长度依赖

如何解决《Python2,在简单的情况下映射不等同于列表推导;长度依赖》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何实现通信Activity-Service

如何解决《如何实现通信Activity-Service》经验，为你挑选了0个好方法。 ... [详细]
程序员
三维点旋转算法

如何解决《三维点旋转算法》经验，为你挑选了2个好方法。 ... [详细]
程序员
从Visual Studio 2015 Update 1中的Post-Build事件执行AL.EXE时出现错误-1073741819(0xC0000005)

如何解决《从VisualStudio2015Update1中的Post-Build事件执行AL.EXE时出现错误-1073741819(0xC0000005)》经验，为你挑选了0个好方法。 ... [详细]
程序员
Hibernate 5,JPA 2.0 websphere

如何解决《Hibernate5,JPA2.0websphere》经验，为你挑选了0个好方法。 ... [详细]
程序员
一元减去只改变标志吗？

如何解决《一元减去只改变标志吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Tensor Flow中访问文件队列中的文件名

如何解决《在TensorFlow中访问文件队列中的文件名》经验，为你挑选了1个好方法。 ... [详细]

U友50081205_653

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章