当前位置:  开发笔记 > 编程语言 > 正文

如何使用BeautifulSoup从HTML"datacell"获取文本

如何解决《如何使用BeautifulSoup从HTML"datacell"获取文本》经验,为你挑选了1个好方法。

我一直试图从HTML文件中删除一些数据.我有逻辑编码来获得正确的单元格.现在我正在努力获得'细胞'的实际内容:

这是我的htm剪辑

那么headerRows [0] [10] .contents

  [Apples Produced       
  ]

请注意,这是Python []中的列表项.

我需要Apples Produced的价值,但无法达到它.

任何建议,将不胜感激

关于解释这一点的好书的建议将获得我永恒的感激之情


谢谢你的回答.然而,没有更普遍的答案.如果我的单元格没有粗体属性会发生什么

说它是:

 [Apples Produced       
  ]

苹果生产

我正在努力学习阅读/理解文档,您的回复将有所帮助

我非常感谢这个帮助.关于这些答案的最好的事情是,从它们推广起来要容易得多,然后我就可以从BeautifulSoup文档中做到这一点.我学会了在Fortran时代进行编程,而我正在享受学习python并且对它的能力感到惊讶 - BeautifulSoup就是一个例子.制作一个cohernet整个文档对我来说很难.

干杯



1> Jonny Buchan..:

该BeautifulSoup文件应包括你需要的一切-在这种情况下,它看起来像你想使用findNext:

headerRows[0][10].findNext('b').string

不依赖于标记的更通用的解决方案是使用text参数findAll,它允许您仅搜索NavigableString对象:

>>> s = BeautifulSoup(u'

Test 1 More Test 2

') >>> u''.join([s.string for s in s.findAll(text=True)]) u'Test 1 More Test 2'

推荐阅读
Chloemw
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有