用于生成真实单词的词干算法

作者：TXCWB_523 | 2023-09-04 11:19

如何解决《用于生成真实单词的词干算法》经验，为你挑选了3个好方法。

我需要一段文字并从中提取一个"标签"列表.其中大部分都很直接.但是我现在需要一些帮助来阻止生成的单词列表以避免重复.示例:社区/社区

我已经使用了Porter Stemmer算法的实现(顺便说一下我在PHP中编写):

http://tartarus.org/~martin/PorterStemmer/php.txt

这可以达到一定程度,但不会返回"真实"的单词.上面的例子被称为"commun".

我尝试过"Snowball"(在另一个Stack Overflow线程中建议).

http://snowball.tartarus.org/demo.php

对于我的例子(社区/社区),Snowball源于"社交".

题

有没有其他干扰算法可以做到这一点？还有其他人解决了这个问题吗？

我目前的想法是,我可以使用词干算法来避免重复,然后选择我遇到的最短词是要显示的实际词.

1> Kaarel..：

如果我理解正确,那么你需要的不是一个词干分析器而是一个变形器.Lemmatizer是一个工具,具有关于结尾的知识,如-ies,-ed等,以及特殊的字形,如书写等.Lemimatizer将输入字形映射到其引理,这被保证是一个"真实"字.

英语有许多词形,我只是用过morpha. Morpha只是一个很大的lex文件,可以编译成可执行文件.用法示例:

$ cat test.txt 
Community
Communities
$ cat test.txt | ./morpha -uc
Community
Community

你可以从http://www.informatics.sussex.ac.uk/research/groups/nlp/carroll/morph.html获得morpha

是否有任何用于python的morpha库？

这是正确的答案.接受的答案是不正确的,来到此页面的任何人都应该遵循这个建议.

2> Dave Sherohm..：

这里的核心问题是,词干算法纯粹基于语言的拼写规则~~在语音基础上~~运行,而对它们正在使用的语言没有实际的理解.要生成真正的单词,您可能必须将词干分析器的输出与某种形式的查找函数合并,以将词干转换回真实单词.我基本上可以看到两种可能的方法:

找到或创建一个大型字典,将每个可能的词干映射回实际单词.(例如,社区 - >社区)

创建一个函数,将每个词干与减少到该词干的单词列表进行比较,并尝试确定哪个最相似.(例如,将"社区"与"社区"和"社区"进行比较,以便将"社区"视为更相似的选项)

就个人而言,我认为我这样做的方式将是#1的动态形式,通过记录所检查的每个单词及其所包含的内容来构建自定义词典数据库,然后假设最常见的单词应该是用过的.(例如,如果我的源文本主体比"社区"更频繁地使用"社区",那么映射社区 - >社区.)基于字典的方法通常会更准确,并且基于词干输入构建它将提供结果根据您的文本定制,主要缺点是所需的空间,这些日子通常不是问题.

这种方法很好,我过去曾经使用过它.但有一个简短的说明:词干算法(通常)不是在语音的基础上运作,它们是根据语言的语法而不是单词的声音来编写的.有关详细信息,我建议阅读http://snowball.tartarus.org/texts/introduction.html,特别是第2节 - "一些潜在干预的想法"

3> Dmitry Paran..：

嘿,我不知道这可能为时已晚,但只有一个PHP源代码脚本可以产生真正的单词:http://phpmorphy.sourceforge.net/ - 我花了很长时间才找到它.所有其他的词干分析器必须被编译,甚至在此之后它们只能根据波特算法工作,该算法产生词干,而不是词条(即社区=社区).PhpMorphy可以很好地工作,它易于安装和初始化,并且有英语,俄语,德语,乌克兰语和爱沙尼亚语词典.它还附带了一个脚本,您可以使用它来编译其他字典.该文档是俄语,但通过谷歌翻译,它应该很容易.

推荐阅读

程序员
我们可以从java桌面应用程序中读取浏览器保存的cookie吗？

如何解决《我们可以从java桌面应用程序中读取浏览器保存的cookie吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用matplotlib在同一行中绘制多个图形？

如何解决《如何使用matplotlib在同一行中绘制多个图形？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Repeater的存储过程 - 从表中选择列

如何解决《Repeater的存储过程-从表中选择列》经验，为你挑选了1个好方法。 ... [详细]
程序员
来自CSV的嵌套JSON

如何解决《来自CSV的嵌套JSON》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何从SoftwareBitmap获取字节数组

如何解决《如何从SoftwareBitmap获取字节数组》经验，为你挑选了3个好方法。 ... [详细]
程序员
为什么QSharedPointer <T> :: create调用不完整对象的析构函数？

如何解决《为什么QSharedPointer<T>::create调用不完整对象的析构函数？》经验，为你挑选了1个好方法。 ... [详细]
程序员
找不到中心目录错误

如何解决《找不到中心目录错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jquery包含字符串

如何解决《Jquery包含字符串》经验，为你挑选了1个好方法。 ... [详细]
程序员
将非`void`指针转换为`uintptr_t`,反之亦然

如何解决《将非`void`指针转换为`uintptr_t`,反之亦然》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何确保字符串的子字符串正好n次？

如何解决《如何确保字符串的子字符串正好n次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Google PageSpeed API dotnet .net

如何解决《GooglePageSpeedAPIdotnet.net》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Fragment中添加SearchView

如何解决《在Fragment中添加SearchView》经验，为你挑选了2个好方法。 ... [详细]
程序员
c#中通过socket的客户端服务器连接

如何解决《c#中通过socket的客户端服务器连接》经验，为你挑选了1个好方法。 ... [详细]
程序员
不能使用BeautifulSoup4刮掉特定的表(Python 3)

如何解决《不能使用BeautifulSoup4刮掉特定的表(Python3)》经验，为你挑选了0个好方法。 ... [详细]
程序员
捆绑后未定义应用程序

如何解决《捆绑后未定义应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
Karma-Coverage报告显示代码覆盖(显然未涵盖)

如何解决《Karma-Coverage报告显示代码覆盖(显然未涵盖)》经验，为你挑选了1个好方法。 ... [详细]
程序员
查找具有最大前K点总和的区域

如何解决《查找具有最大前K点总和的区域》经验，为你挑选了0个好方法。 ... [详细]
程序员
为什么使用gnu90和c90标准编译时strerror_r的行为会有所不同？

如何解决《为什么使用gnu90和c90标准编译时strerror_r的行为会有所不同？》经验，为你挑选了1个好方法。 ... [详细]
程序员
多个scipy.integrate.ode实例

如何解决《多个scipy.integrate.ode实例》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何用Java中的泛型实现工厂模式？

如何解决《如何用Java中的泛型实现工厂模式？》经验，为你挑选了1个好方法。 ... [详细]

TXCWB_523

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章