如何开始信息提取？

作者：郑小蒜9299_941611_G | 2023-08-30 13:04

如何解决《如何开始信息提取？》经验，为你挑选了2个好方法。

你能推荐一条培训路径,开始并在信息提取方面做得很好.我开始阅读它来做我的一个爱好项目,并很快意识到我必须擅长数学(代数,统计,问题).我已经阅读了一些关于不同数学主题的介绍性书籍(它非常有趣).寻求一些指导.请帮忙.

更新:只是回答其中一条评论.我对文本信息提取更感兴趣.

1> Silver Drago..：

只是回答其中一条评论.我对文本信息提取更感兴趣.

根据项目的性质,自然语言处理和计算语言学都可以派上用场 - 它们提供工具来测量,从文本信息中提取特征,并应用培训,评分或分类.好的介绍性书籍包括OReilly的编程集体智慧(关于"搜索和排名",文档过滤和决策树的章节).

利用这些知识的建议项目:POS(词性)标记和命名实体识别(从纯文本中识别名称,地点和日期的能力).您可以将维基百科用作培训语料库,因为大多数目标信息已经在信息框中提取 - 这可能会为您提供一些有限的测量反馈.

IE浏览器的另一大锤子是搜索,一个不容小觑的领域.同样,OReilly的书提供了基本排名的一些介绍; 一旦你拥有大量的索引文本,你就可以用它做一些真正的IE任务.看看Peter Norvig:以数据为理论的起点,非常好的激励因素 - 也许你可以重新实现他们的一些结果作为学习练习.

作为预警,我认为我有义务告诉你,信息提取很难.任何特定任务的前80%通常是微不足道的; 然而,IE任务的每个额外百分比的难度通常在指数上 - 在开发和研究时间内增长.它也是相当缺乏文档的 - 大部分高质量的信息目前都在晦涩的白皮书中(谷歌学者是你的朋友) - 一旦你的手被烧了几次就检查出来.但最重要的是,不要让这些障碍让你失望 - 在这个领域取得进展肯定是很大的机会.

2> Fabian Steeg..：

我推荐Christopher D. Manning,Prabhakar Raghavan和HinrichSchütze 的优秀书籍信息检索.它涵盖了广泛的问题领域,形成了信息提取的最佳(2008)基础,并可在全文(在给定链接下)在线获取.

推荐阅读

程序员
使用原型[javascript]的未定义结果

如何解决《使用原型[javascript]的未定义结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
当我在rubymine中为我的项目添加ruby SDK时出错

如何解决《当我在rubymine中为我的项目添加rubySDK时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
python 2.7：函数中的'newline'

如何解决《python2.7：函数中的'newline'》经验，为你挑选了1个好方法。 ... [详细]
程序员
在使用gradle编译android库时如何禁止警告？

如何解决《在使用gradle编译android库时如何禁止警告？》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么Notepad ++中的[[:alpha:]]也匹配中文单词？

如何解决《为什么Notepad++中的[[:alpha:]]也匹配中文单词？》经验，为你挑选了1个好方法。 ... [详细]
程序员
按特定值对python中的JSON进行排序

如何解决《按特定值对python中的JSON进行排序》经验，为你挑选了0个好方法。 ... [详细]
程序员
GitHub：无法加载最新的提交信息

如何解决《GitHub：无法加载最新的提交信息》经验，为你挑选了0个好方法。 ... [详细]
程序员
删除列表中字符串的所有扩展名

如何解决《删除列表中字符串的所有扩展名》经验，为你挑选了0个好方法。 ... [详细]
程序员
检查pandas Series是否至少有一个项大于一个值

如何解决《检查pandasSeries是否至少有一个项大于一个值》经验，为你挑选了1个好方法。 ... [详细]
程序员
在where子句上使用mysql boolean

如何解决《在where子句上使用mysqlboolean》经验，为你挑选了2个好方法。 ... [详细]
程序员
Aurelia导航栏虚拟机不工作

如何解决《Aurelia导航栏虚拟机不工作》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Stax Parser将巨大的xml文件> 10GB拆分成小块

如何解决《使用StaxParser将巨大的xml文件>10GB拆分成小块》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何通过sql查询更改wordpress数据库中的url永久链接

如何解决《如何通过sql查询更改wordpress数据库中的url永久链接》经验，为你挑选了1个好方法。 ... [详细]
程序员
一个补码架构上的负零行为？

如何解决《一个补码架构上的负零行为？》经验，为你挑选了0个好方法。 ... [详细]
程序员
python是基于堆栈的意思是什么？

如何解决《python是基于堆栈的意思是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Delphi 7中调用.net 4.0构建的dll

如何解决《在Delphi7中调用.net4.0构建的dll》经验，为你挑选了1个好方法。 ... [详细]
程序员
你如何在Swift函数中放置一个guard语句？

如何解决《你如何在Swift函数中放置一个guard语句？》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何以编程方式在xiaomi中启用我的应用程序的自动启动

如何解决《如何以编程方式在xiaomi中启用我的应用程序的自动启动》经验，为你挑选了2个好方法。 ... [详细]
程序员
便携式Android Studio

如何解决《便携式AndroidStudio》经验，为你挑选了2个好方法。 ... [详细]
程序员
为什么没有dscanf()？

如何解决《为什么没有dscanf()？》经验，为你挑选了1个好方法。 ... [详细]

郑小蒜9299_941611_G

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章