20赞

Feedparser - 从Google阅读器中检索旧邮件

作者：惬听风吟jyy_802 | 2023-08-16 12:46

如何解决《Feedparser-从Google阅读器中检索旧邮件》经验，为你挑选了1个好方法。

我在python中使用feedparser库从当地报纸上检索新闻(我的目的是在这个语料库上进行自然语言处理),并希望能够从RSS提要中检索许多过去的条目.

我不太熟悉RSS的技术问题,但我认为这应该是可能的(我可以看到,例如,当我移动滚动条时,Google Reader和Feedly可以"按需"执行此操作).

当我执行以下操作时:

import feedparser

url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
   title = post.title

我只收到了十几个条目.我在考虑数百个.如果可能的话,也许是上个月的所有参赛作品.是否可以仅使用feedparser执行此操作？

我打算从rss中获取仅包含新闻项的链接,并使用BeautifulSoup解析整个页面以获取我想要的文本.另一种解决方案是跟踪页面中所有本地链接的爬虫,以获取大量新闻,但我想暂时避免这样做.

出现的一个解决方案是使用Google Reader RSS缓存:

http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000

但要访问它,我必须登录Google阅读器.谁知道我是如何从python那样做的？(我真的不知道关于网络的事情,我通常只讨论数值计算).

1> Bartek..：

您只会收到十几个条目,因为这是Feed所包含的内容.如果您需要历史数据,则必须找到所述数据的源/数据库.

查看此ReadWriteWeb文章,了解有关在Web上查找开放数据的一些资源.

请注意,Feedparser与此标题无关.Feedparser会解析您提供的内容.它找不到历史数据,除非您找到它并将其传递给它.它只是一个解析器.希望这能说明问题!:)

推荐阅读

程序员
如何仅导出所有常用测试功能？

如何解决《如何仅导出所有常用测试功能？》经验，为你挑选了1个好方法。 ... [详细]
程序员
React原生自定义视图,没有propType用于原生道具

如何解决《React原生自定义视图,没有propType用于原生道具》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从Visual Studio Code API打开浏览器

如何解决《如何从VisualStudioCodeAPI打开浏览器》经验，为你挑选了1个好方法。 ... [详细]
程序员
启动PIG时出错:ERROR 2998:未处理的内部错误.找到界面jline.Terminal,但是预计会上课

如何解决《启动PIG时出错:ERROR2998:未处理的内部错误.找到界面jline.Terminal,但是预计会上课》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何通过用户数据在EC2实例上设置环境变量

如何解决《如何通过用户数据在EC2实例上设置环境变量》经验，为你挑选了3个好方法。 ... [详细]
程序员
在SQL Server中选择一组日期

如何解决《在SQLServer中选择一组日期》经验，为你挑选了0个好方法。 ... [详细]
程序员
在CQRS模式中,应该在域服务或命令处理程序中工作

如何解决《在CQRS模式中,应该在域服务或命令处理程序中工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在IF ELSE之外获取变量值

如何解决《如何在IFELSE之外获取变量值》经验，为你挑选了2个好方法。 ... [详细]
程序员
使用Angular 2.0的Angular 2.0 Material MdDialog的工作示例

如何解决《使用Angular2.0的Angular2.0MaterialMdDialog的工作示例》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法让SFINAE工作

如何解决《无法让SFINAE工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
实现接口并扩展实现相同接口的类？

如何解决《实现接口并扩展实现相同接口的类？》经验，为你挑选了1个好方法。 ... [详细]
程序员
利用docstrings

如何解决《利用docstrings》经验，为你挑选了1个好方法。 ... [详细]
程序员
在产品详细信息页面的WooCommerce中按类别ID获取类别URL

如何解决《在产品详细信息页面的WooCommerce中按类别ID获取类别URL》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS lambda发送SNS"成功"但不发送实际发送的消息

如何解决《AWSlambda发送SNS"成功"但不发送实际发送的消息》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从instagram图片中找到facebook个人资料？

如何解决《如何从instagram图片中找到facebook个人资料？》经验，为你挑选了1个好方法。 ... [详细]
程序员
调用另一个函数并可选择保留默认参数

如何解决《调用另一个函数并可选择保留默认参数》经验，为你挑选了2个好方法。 ... [详细]
程序员
将Activiti任务从旧进程迁移到新进程

如何解决《将Activiti任务从旧进程迁移到新进程》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL Server中的非聚簇索引 - 选择性 - 以及叶节点页面中的内容？

如何解决《SQLServer中的非聚簇索引-选择性-以及叶节点页面中的内容？》经验，为你挑选了1个好方法。 ... [详细]
程序员
默认NULL参数Rcpp

如何解决《默认NULL参数Rcpp》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用commons-beanutils对beanutils依赖项进行重复数据删除？

如何解决《如何使用commons-beanutils对beanutils依赖项进行重复数据删除？》经验，为你挑选了0个好方法。 ... [详细]

惬听风吟jyy_802

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章