人们经常抛弃IR,ML和数据挖掘这两个术语,但我注意到它们之间有很多重叠.
对于那些在这些领域有经验的人来说,究竟是什么划清界限?
这只是一个人的观点(正式接受ML训练); 其他人可能会看到完全不同
机器学习可能是这三个术语中最同质的,并且应用最为一致 - 它仅限于模式提取(或模式匹配)算法本身.
在你提到的术语中,"机器学习"是学术部门最常用来描述他们的课程,他们的学术部门和他们的研究课程,以及学术期刊和会议论文中最常用的术语.ML显然是与您提到的术语相关的最少依赖于上下文的.
信息检索和数据挖掘更接近于描述完整的商业流程 - 从用户查询到检索/交付相关结果.ML算法可能在该流程中的某个地方,而在更复杂的应用程序中,通常是,但这不是正式的要求.此外,术语数据挖掘通常似乎是指对大数据(即> 2BG)应用某些流程,因此通常包括该工作流前端附近的分布式处理(map-reduce)组件.
因此,信息检索(IR)和数据挖掘(DM)与基础设施算法中的机器学习(ML)相关一种方式.换句话说,机器学习是用于解决信息检索中的问题的工具的一个来源.但它只是工具的一个来源.但IR并不依赖于ML - 例如,特定的IR项目可能是存储和快速检索完全索引的数据,响应用户的搜索查询IR,其关键是优化数据流的性能,即,从查询到将搜索结果传递给用户的往返.预测或模式匹配在这里可能没用.同样,DM项目可能会将ML算法用于预测引擎,但DM项目更可能也关注整个处理流程 - 例如,
最后考虑一下Netflix奖.本次竞赛仅针对机器学习 - 重点是预测算法,事实证明只有一个成功标准:算法返回的预测准确性.想象一下,如果'Netflix奖'被重新命名为数据挖掘竞赛.成功标准几乎肯定会扩展到更准确地在实际商业环境中访问算法的性能 - 例如总体执行速度(提供给用户的推荐的速度)可能会与准确性一起考虑.
术语"信息检索"和"数据挖掘"现在已成为主流使用,但有一段时间我只在工作描述或供应商文献中看到这些术语(通常在"解决方案"一词旁边).在我的雇主,我们最近聘请了一位"数据挖掘"分析师.我不知道他到底做了什么,但他每天都戴着领带上班.
我试着画出如下线:
信息检索是指尽可能快地找到已经成为数据一部分的内容.
机器学习是将现有知识概括为新数据的技术,尽可能准确.
数据挖掘主要是为了发现您之前不知道的数据中隐藏的内容,尽可能"新".
它们交叉并经常使用彼此的技术.DM和IR都使用索引结构来加速进程.DM使用了许多ML技术,例如数据集中对泛化有用的模式可能是一种新知识.
它们通常很难分开.帮自己一个忙,不要只是为了流行语.在我看来,区分它们的最佳方式是它们的意图,如上所述:查找数据,推广到新数据,查找现有数据的新属性.