你能推荐一条培训路径,开始并在信息提取方面做得很好.我开始阅读它来做我的一个爱好项目,并很快意识到我必须擅长数学(代数,统计,问题).我已经阅读了一些关于不同数学主题的介绍性书籍(它非常有趣).寻求一些指导.请帮忙.
更新:只是回答其中一条评论.我对文本信息提取更感兴趣.
只是回答其中一条评论.我对文本信息提取更感兴趣.
根据项目的性质,自然语言处理和计算语言学都可以派上用场 - 它们提供工具来测量,从文本信息中提取特征,并应用培训,评分或分类.好的介绍性书籍包括OReilly的编程集体智慧(关于"搜索和排名",文档过滤和决策树的章节).
利用这些知识的建议项目:POS(词性)标记和命名实体识别(从纯文本中识别名称,地点和日期的能力).您可以将维基百科用作培训语料库,因为大多数目标信息已经在信息框中提取 - 这可能会为您提供一些有限的测量反馈.
IE浏览器的另一大锤子是搜索,一个不容小觑的领域.同样,OReilly的书提供了基本排名的一些介绍; 一旦你拥有大量的索引文本,你就可以用它做一些真正的IE任务.看看Peter Norvig:以数据为理论的起点,非常好的激励因素 - 也许你可以重新实现他们的一些结果作为学习练习.
作为预警,我认为我有义务告诉你,信息提取很难.任何特定任务的前80%通常是微不足道的; 然而,IE任务的每个额外百分比的难度通常在指数上 - 在开发和研究时间内增长.它也是相当缺乏文档的 - 大部分高质量的信息目前都在晦涩的白皮书中(谷歌学者是你的朋友) - 一旦你的手被烧了几次就检查出来.但最重要的是,不要让这些障碍让你失望 - 在这个领域取得进展肯定是很大的机会.
我推荐Christopher D. Manning,Prabhakar Raghavan和HinrichSchütze 的优秀书籍信息检索.它涵盖了广泛的问题领域,形成了信息提取的最佳(2008)基础,并可在全文(在给定链接下)在线获取.