用于文本分析的算法或库,特别是:主导词,跨文本的短语和文本的集合

作者：ar_wen2402851455 | 2023-09-03 18:56

如何解决《用于文本分析的算法或库,特别是:主导词,跨文本的短语和文本的集合》经验，为你挑选了2个好方法。

我正在开展一个项目,我需要分析一个文本页面和文本页面集合以确定主导词汇.我想知道是否有一个库(更喜欢c#或java)来处理繁重的工作.如果没有,是否有一个算法或多个可以实现我的目标.

我想要做的是类似于你在网上找到的url或rss feed构建的单词云,除了我不想要可视化.他们一直用于分析总统候选人的演讲,看看主题或最常用词是什么.

复杂的是,我需要在成千上万的短文档,然后是这些文档的集合或类别上执行此操作.

我最初的计划是解析文档,然后过滤常用词 - ,他,她等等.然后计算剩余词出现在文本中的次数(以及整个集合/类别).

问题是,在将来,我想处理词干,复数形式等.我还想看看是否有办法识别重要的短语.(而不是一个单词的计数,短语的计数一起是2-3个单词)

有关策略,库或算法的任何指导都会有所帮助.

1> Robert Elwel..：

您正在做的一个选项是反向文档频率的术语频率,或tf-idf.在此计算中,最强的术语将具有最高权重.检查是否在这里:http://en.wikipedia.org/wiki/Tf-idf

另一种选择是使用类似于朴素贝叶斯分类器的东西,使用单词作为特征,并找到文本中最强大的特征来确定文档的类.这将与最大熵分类器类似地起作用.

至于要做到这一点的工具,最好的工具就是NLTK,这是一个包含大量文档和教程的Python库:http://nltk.sourceforge.net/

对于Java,请尝试OpenNLP:http://opennlp.sourceforge.net/

对于短语的东西,考虑我提供的第二个选项,使用bigrams和trigrams作为功能,甚至作为tf-idf中的术语.

祝好运!

2> Gregg Lind..：

添加到Robert Elwell的答案中:

阻止和折叠单词形式.英语中的一种简单方法是在较低的词形上使用Porter Stemming.

"常用词"的术语是"停用词"或"停止列表"

阅读建议书中的NLTK书将很好地解释很多这些介绍性问题.

你必须解决的一些问题是解析句子(这样你的双字母和n-gram短语不会越过句子边界),将句子分成标记,以及决定如何处理占有形式.

这些东西都不是明确的,也没有任何"正确答案".另请参阅"nlp"和"自然语言"SO标记.

祝好运!这是一个非平凡的项目.

推荐阅读

程序员
将键值数据帧转换为列表

如何解决《将键值数据帧转换为列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何防止回调被送入javascript函数

如何解决《如何防止回调被送入javascript函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Bootstrap Date Range Picker中配置语言

如何解决《在BootstrapDateRangePicker中配置语言》经验，为你挑选了2个好方法。 ... [详细]
程序员
保存对立即调用的函数的引用

如何解决《保存对立即调用的函数的引用》经验，为你挑选了1个好方法。 ... [详细]
程序员
既然Swift是开源的,我可以在不是Mac的计算机上编写和编译iOS应用程序吗？

如何解决《既然Swift是开源的,我可以在不是Mac的计算机上编写和编译iOS应用程序吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
将<Header>设置为Other Elements - CSS

如何解决《将<Header>设置为OtherElements-CSS》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过API将Twilio语音响应设置为URL而不是TwiML App

如何解决《通过API将Twilio语音响应设置为URL而不是TwiMLApp》经验，为你挑选了1个好方法。 ... [详细]
程序员
张量流中具有未指定尺寸的张量

如何解决《张量流中具有未指定尺寸的张量》经验，为你挑选了1个好方法。 ... [详细]
程序员
访问DbSet时的Effort(EF6)异常(字典中没有给定的密钥)

如何解决《访问DbSet时的Effort(EF6)异常(字典中没有给定的密钥)》经验，为你挑选了0个好方法。 ... [详细]
程序员
CakePHP:找不到FlashComponent

如何解决《CakePHP:找不到FlashComponent》经验，为你挑选了1个好方法。 ... [详细]
程序员
Cordova应用程序在Android上获得404所有XMLHttpRequests

如何解决《Cordova应用程序在Android上获得404所有XMLHttpRequests》经验，为你挑选了1个好方法。 ... [详细]
程序员
SQL Server中的UNION如何将一行与另一行进行比较？

如何解决《SQLServer中的UNION如何将一行与另一行进行比较？》经验，为你挑选了1个好方法。 ... [详细]
程序员
配置Nodejs中的最大旧空间大小

如何解决《配置Nodejs中的最大旧空间大小》经验，为你挑选了1个好方法。 ... [详细]
程序员
反向/ dev/null

如何解决《反向/dev/null》经验，为你挑选了1个好方法。 ... [详细]
程序员
安装Swift开源Xcode工具链时出错:您无法在此位置安装Swift开源Xcode工具链

如何解决《安装Swift开源Xcode工具链时出错:您无法在此位置安装Swift开源Xcode工具链》经验，为你挑选了1个好方法。 ... [详细]
程序员
jQuery - 元素闪烁

如何解决《jQuery-元素闪烁》经验，为你挑选了1个好方法。 ... [详细]
程序员
跨程序集和命名空间的依赖注入

如何解决《跨程序集和命名空间的依赖注入》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么局部变量是goroutine中匿名函数的不同参数

如何解决《为什么局部变量是goroutine中匿名函数的不同参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在Google图表中设置hAxis标签日期的格式

如何解决《如何在Google图表中设置hAxis标签日期的格式》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将py.test fixtures与Flask-SQLAlchemy和PostgreSQL结合起来？

如何解决《如何将py.testfixtures与Flask-SQLAlchemy和PostgreSQL结合起来？》经验，为你挑选了0个好方法。 ... [详细]

ar_wen2402851455

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章