我在python中使用feedparser库从当地报纸上检索新闻(我的目的是在这个语料库上进行自然语言处理),并希望能够从RSS提要中检索许多过去的条目.
我不太熟悉RSS的技术问题,但我认为这应该是可能的(我可以看到,例如,当我移动滚动条时,Google Reader和Feedly可以"按需"执行此操作).
当我执行以下操作时:
import feedparser url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml' feed = feedparser.parse(url) for post in feed.entries: title = post.title
我只收到了十几个条目.我在考虑数百个.如果可能的话,也许是上个月的所有参赛作品.是否可以仅使用feedparser执行此操作?
我打算从rss中获取仅包含新闻项的链接,并使用BeautifulSoup解析整个页面以获取我想要的文本.另一种解决方案是跟踪页面中所有本地链接的爬虫,以获取大量新闻,但我想暂时避免这样做.
-
出现的一个解决方案是使用Google Reader RSS缓存:
http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000
但要访问它,我必须登录Google阅读器.谁知道我是如何从python那样做的?(我真的不知道关于网络的事情,我通常只讨论数值计算).
您只会收到十几个条目,因为这是Feed所包含的内容.如果您需要历史数据,则必须找到所述数据的源/数据库.
查看此ReadWriteWeb文章,了解有关在Web上查找开放数据的一些资源.
请注意,Feedparser与此标题无关.Feedparser会解析您提供的内容.它找不到历史数据,除非您找到它并将其传递给它.它只是一个解析器.希望这能说明问题!:)