假设我想从多个来源(可能是旅行,技术或其他)汇总与特定利基相关的信息.我该怎么办?
有一个蜘蛛/爬虫将抓取网页以查找我需要的信息(我如何告诉抓取工具爬什么,因为我不想获得整个网络?)?然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎?
像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗?你还推荐别的吗?
或者你能推荐另一种方法吗?
例如,Techmeme.com是如何构建的?(它是技术新闻的聚合器,它完全自动化 - 直到最近他们还增加了一些人为干预).建立这样的服务需要什么?
或者Kayak.com如何汇总他们的数据?(这是旅行聚合服务.)
这一切都取决于您正在寻找的聚合器.
失去定义 - 一般来说,这需要您数据源在确定信息类型时非常灵活(回答问题是这个网站/信息旅行相关?幽默?业务相关?)
具体 - 这放宽了数据存储中的要求,即所有数据都是特定旅行相关的,需要航班,酒店价格等.
Grabber,它搜索并获取需要汇总的所有内容
汇总 - 这通常通过对数据库的查询来完成,并且可以根据用户偏好[通过编程逻辑]进行调整
查看 - 这格式化了用户希望看到的信息,并且可以响应用户对所建议项目的喜欢或不喜欢的反馈.