Google使用了哪些搜索算法/概念?
大型超文本Web搜索引擎的剖析
谷歌使用倒置的互联网索引.这意味着Google拥有根据每个页面中的条款抓取的所有网页的索引.例如,谷歌这个术语映射到这个页面,谷歌主页和谷歌的维基百科文章,以及其他.
因此,当您访问Google并在搜索框中输入"Google"时,Google会检查其在互联网上可用的所有条款的索引,并找到"Google"这一术语的条目,并查找包含该术语的所有网页的列表在其中引用.
不过,Google的索引超出了您的简单倒排索引.这就是谷歌是最好的原因.Google的抓取工具(蜘蛛)很聪明.很聪明.除了跟踪任何给定网页上的术语之外,他们还跟踪相关页面上的单词并将其链接到给定文档.
换句话说,如果页面中包含术语Google,并且该页面具有指向另一个网页的链接或从另一个网页链接,则另一个页面也可以在术语Google下的索引中引用.所有这些以及更多内容都涉及为给定查询返回给定页面的原因.
如果你想进入为什么页面按照它们在你的搜索结果中的方式进行排序,那就会变成更有趣的东西.
排行也许搜索引擎可用于对结果进行排序的最基本算法之一称为术语频率 - 逆文档频率(tf-idf).简而言之,这意味着您的结果将按照您在文档中搜索字词的相对重要性进行排序.换句话说,一个包含10个页面并列出Google一次的文档并不像具有1个页面的文档那样重要,并且列出了Google十次的单词.
同样,在排名结果时,Google比基本搜索引擎做的要多得多.谷歌已经实施了上述专利的PageRank算法.简而言之,PageRank通过考虑给定页面的普及/重要性来增强tf-idf算法.在这一点上,人气/重要性可以通过谷歌不会告诉我们的任何因素来判断.但是,在最基本的级别中,Google可以判断一个页面比另一个页面更重要,因为其他页面的加载和加载链接到它.