我是一名学生,正在进行一项研究,以增强搜索引擎的现有算法.
我想知道如何评估搜索引擎 - 我已经改进了 - 来量化算法的改进程度.
我该如何比较旧算法和新算法?
谢谢
这通常通过创建一组问题测试,然后评估搜索响应如何回答这些问题来完成.在某些情况下,响应应该是明确的(如果您键入slashdot
搜索引擎,您希望获得slashdot.org
最佳匹配),因此您可以将这些视为具有"正确"答案的一类硬查询.
大多数其他查询本身就是主观的.为了最大限度地减少偏见,您应该让多个用户尝试使用您的搜索引擎并对结果进行评级以与原始对象进 这是一个类似的计算机科学论文的例子:
http://www.cs.uic.edu/~liub/searchEval/SearchEngineEvaluation.htm
关于算法的具体比较,虽然很明显,但你衡量的内容取决于你有兴趣了解的内容.例如,您可以比较计算效率,内存使用率,爬网开销或返回结果的时间.如果您尝试生成非常特定的行为,例如针对某些参数运行专家搜索(例如文献搜索),那么您需要明确地测试它.
相关性的启发式算法也是一个有用的检查.例如,当某人使用可能与"编程相关"的搜索词时,您是否倾向于从中获得更多结果stackoverflow.com
?如果你这样做,你的搜索结果会更好吗?如果您为特定站点或域提供一组信任权重(例如,评级.edu
或.ac.uk
域名对技术结果更可靠),那么您需要测试这些权重的有效性.
首先,我首先要说的是,您试图将传统研究方法应用于搜索引擎结果.许多搜索引擎优化已经在你之前完成了这一点,并且通常保持这一点,因为分享"惊人的发现"通常意味着你不能利用或占上风,这说我会尽可能分享一些指针和事情来寻找.
确定您要改进的算法部分是什么?
不同搜索执行不同的算法.
广泛的搜索
例如,在广义的术语中,引擎往往会返回各种结果.这些结果的共同部分包括
新闻资讯
制品
图片
博客帖子
本地结果(这是基于地理IP查找).
将这些结果类型中的哪一种投入到混合中可以根据单词而变化.
示例: Cats返回猫的图像,而新闻,鞋子返回本地鞋子购物.(这是基于我10月6日在芝加哥的知识产权)
在返回的结果为目标广义的术语,是提供一切的一点点给大家,让大家都高兴.
区域修饰符
通常,只要区域术语附加到搜索中,它就会大大修改结果.如果您搜索"芝加哥网页设计",因为附加了芝加哥一词,结果将从十大区域结果开始.(这些是地图右侧的一个衬里),超过10个列表将以一般的"结果时尚"显示.
"十大本地"的结果与下面的有机列表中的结果大不相同.这是因为本地结果(来自谷歌地图)依赖于完全不同的数据进行排名.
示例:在您的网站上使用区号为芝加哥的电话号码将有助于本地结果...但不是一般结果.与地址,黄皮书列表等相同.
结果速度快
目前(截至2009年6月10日)谷歌正在测试"咖啡因"这个引擎构建的主要亮点是它几乎一半的时间内返回结果.虽然你可能不认为谷歌现在很慢......当每小时发生数百万次搜索时,加速算法非常重要.
减少垃圾邮件列表
我们都发现了一个充斥着垃圾邮件的搜索.新版Google Caffeine http://www2.sandbox.google.com/就是一个很好的例子.在过去的10场以上最大的在线争斗之一是搜索引擎优化和搜索引擎之间.游戏谷歌(和其他引擎)是高利润的,谷歌花费大部分时间打击.
一个很好的例子是谷歌咖啡因的新版本.到目前为止,我的研究以及搜索引擎优化领域的其他一些研究发现,这是5年来第一次对现场元素(如关键字,内部网站链接等)的重视程度超过以前的构建.在此之前,每个"发布"似乎越来越倾向于入站链接......这是第一个向"内容"退一步的人.
如何测试一个algorythm.
比较同一引擎的两个版本.目前,这可以通过比较咖啡因(参见上面的链接或google,google咖啡因)和当前的Google来实现.
比较不同地区的本地结果.尝试查找网页设计等搜索字词,返回本地结果而不使用本地关键字修饰符.然后,使用代理(通过谷歌找到)从不同的位置搜索.您需要确保知道代理位置(在Google上找到一个可以告诉您的IP地址为geo IP邮政编码或城市的网站).然后你可以看到不同的区域如何返回不同的结果.
警告......不要选择锁匠一词......并且要注意任何返回结果的条款,有很多垃圾邮件列表.谷歌本地很容易发送垃圾邮件,特别是在竞争激烈的市场中.
如前面的答案中所述,比较用户查找结果所需的"点击后退"次数.您应该知道,目前没有主要引擎使用"跳出率"作为网站准确性的指标.这是可能的,因为它看起来很容易使你的结果看起来像是在4-8%范围内的跳出率而实际上没有那么低......换句话说它很容易游戏.
跟踪用户在给定术语中平均使用的搜索变体数量,以便找到所需的结果.这是一个很好的指标,表明引擎是如何聪明地猜测查询类型的(如本答案中提到的那样).
**免责声明.这些观点基于我在2009年10月6日的行业经验.关于SEO和引擎的一件事是他们每天都在改变.谷歌明天可以发布咖啡因,这会改变很多......说,这是搜索引擎优化研究的乐趣!
干杯