我正在读硕士.在计算机科学和刚刚完成的第一年的源.(这是一个为期两年的课程).很快我就不得不向M.Sc.提交一份提案.项目.我选择了以下主题.
"机器学习在信息检索系统中文档排名的适用性".研究人员一直在使用各种机器学习算法对文档进行排名.因此,作为该项目的第一阶段,我将进行一次完整的文献调查,并找出当前方法的优缺点.在项目的第二阶段,我将提出一种新的(修改的)算法,以克服当前方法的局限性.
实际上我的问题是这种类型的项目是否适合作为硕士学位.项目?此外,如果有人在信息检索领域有一些有趣的想法,是否有可能与我分享这些想法.
谢谢
排名始终是任何信息检索系统中最难的部分.我认为这是一个非常好的主题,但你必须尽快 - 尽快 - 确定工作范围.可能你不能开发新的红外引擎,而是建立一个基于例如apache lucene的原型.
目前有很多数据集包括stackoverflow数据转储,它为您提供了定义丰富的特征向量所需的所有信息(点数,时间,您可以挖掘上一个问题的主题等,标记的流行度)学习排名算法.在这部分工作中,您可以,例如,对特征类型进行分类(例如,用户特定的,语义特征 - 标题中的软件名称),并执行一系列实验以了解哪些特征最重要,哪些特征不适用于给定数据集.
这样一个项目的第二个方向可以是如何有效地进行学习.背后的原因是网络或社区论坛中的数据量以及论坛中的变化(如果您采用社区特定功能,这将非常重要),例如,技术变更,新软件发布等.
还有许多与搜索和机器学习相关的主题.最好的想法是在scholar.google.com上搜索最近关于排名,机器学习和搜索的调查文章,以了解最先进的技术.下一步是与您的MSc主管交谈.
祝好运!