当前位置:  开发笔记 > 后端 > 正文

如何构建聚合器?

如何解决《如何构建聚合器?》经验,为你挑选了1个好方法。

假设我想从多个来源(可能是旅行,技术或其他)汇总与特定利基相关的信息.我该怎么办?

有一个蜘蛛/爬虫将抓取网页以查找我需要的信息(我如何告诉抓取工具爬什么,因为我不想获得整个网络?)?然后有一个索引系统来索引和组织我抓取的信息,也是一个搜索引擎?

像Nutch lucene.apache.org/nutch这样的系统可以用于我想要的吗?你还推荐别的吗?

或者你能推荐另一种方法吗?

例如,Techmeme.com是如何构建的?(它是技术新闻的聚合器,它完全自动化 - 直到最近他们还增加了一些人为干预).建立这样的服务需要什么?

或者Kayak.com如何汇总他们的数据?(这是旅行聚合服务.)



1> monksy..:

这一切都取决于您正在寻找的聚合器.

类型:

失去定义 - 一般来说,这需要您数据源在确定信息类型时非常灵活(回答问题是这个网站/信息旅行相关?幽默?业务相关?)

具体 - 这放宽了数据存储中的要求,即所有数据都是特定旅行相关的,需要航班,酒店价格等.

典型的聚合器是子程序系统:

    Grabber,它搜索并获取需要汇总的所有内容

    汇总 - 这通常通过对数据库的查询来完成,并且可以根据用户偏好[通过编程逻辑]进行调整

    查看 - 这格式化了用户希望看到的信息,并且可以响应用户对所建议项目的喜欢或不喜欢的反馈.

推荐阅读
jerry613
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有