在amazon.com上搜索一个术语,例如"堆栈溢出",搜索结果会很快返回.
在窗口的左侧,有一个分面搜索,在某些类别中显示与该术语匹配的产品数.
然后,您可以深入研究这些术语.例如,有1094本书与该术语相匹配,分为计算机与互联网(1003),科学等.
鉴于搜索书籍涵盖了其中一些书籍的内容,我觉得这是一个令人印象深刻的壮举.
亚马逊如何做到这一点?大规模并行化?例如,每个节点都知道一些产品?
顺便说一下,我看到"堆叠溢出"出现在"新机器之魂"的文本中,这本书我记得1981年
简短的回答是,很多索引.更长的答案是,大量索引,大量冗余,大量缓存和智能分区.
真正的答案是 - 阅读本书:http: //www-csli.stanford.edu/~hinrich/information-retrieval-book.html
(这是免费的,而且非常好).