7赞

是否有免费的德语形态分析库？

作者：雨天是最美 | 2023-08-28 20:06

如何解决《是否有免费的德语形态分析库？》经验，为你挑选了2个好方法。

我正在寻找一个可以对德语单词进行形态分析的库,即它将任何单词转换为其根形式并提供有关所分析单词的元信息.

例如:

gegessen -> essen
wurde [...] gefasst -> fassen
Häuser -> Haus
Hunde -> Hund

我的收藏:

它必须与名词和动词一起使用.

我知道鉴于德语的复杂性,这是一项非常艰巨的任务,因此我也在寻找仅提供近似值或可能只有80%准确度的库.

我更喜欢不与字典一起工作的图书馆,但是考虑到这些情况,我愿意接受妥协.

我也更喜欢C/C++/Delphi Windows库,因为这样可以更容易集成,但.NET,Java,...也可以.

它必须是一个免费的图书馆.(L)GPL,MPL,......

编辑:我知道没有任何字典就没有办法进行形态分析,因为不规则的单词.当我说,我更喜欢没有字典的图书馆,我的意思是那些完整的字典,它们映射每一个字:

arbeite -> arbeiten
arbeitest -> arbeiten
arbeitet -> arbeiten
arbeitete -> arbeiten
arbeitetest -> arbeiten
arbeiteten -> arbeiten
arbeitetet -> arbeiten
gearbeitet -> arbeiten
arbeite -> arbeiten
...

这些词典有几个缺点,包括巨大的尺寸和无法处理未知单词.

当然,所有异常只能用字典处理:

esse -> essen
isst -> essen
eßt -> essen
aß -> essen
aßt -> essen
aßen -> essen
...

(我的思绪现在正在旋转:))

1> gclj5..：

我认为你正在寻找一个"词干算法".

Martin Porter的方法在语言学家中是众所周知的.Porter词干分析器基本上是一个词缀剥离算法,结合了一些特殊情况的替换规则.

大多数词干分析者提供语言上"不正确"的词根.例如:"美丽"和"美丽"都会导致词干"美化",当然,这不是一个真正的词.但是,如果您使用这些词干来改进信息检索系统中的搜索结果,则无关紧要.例如,Lucene支持Porter stemmer.

Porter还设计了一种简单的编程语言来开发词干分析器,称为Snowball.

Snowball还提供德语词干分析器.从Snowball源生成的AC版本也可以在网站上获得,以及算法的纯文本说明.

这是Snowball中的德国词干分析师:http://snowball.tartarus.org/algorithms/german/stemmer.html

如果你正在寻找一个词的相应词干,就像你在词典中找到的那样,以及词性的信息,你应该谷歌"词典化".

2> Daniel Naber..：

(免责声明:我在这里链接我自己的开源项目)

这些数据以单词列表的形式可在http://www.danielnaber.de/morphologie/获得.它可以与分词器库(如jwordsplitter)结合使用,以涵盖列表中不在的复合名词.

或者只使用Java中的LanguageTool,它具有以紧凑有限状态机的形式嵌入的单词列表(加上它还包括复合分裂).

谢谢你发布你的答案!请务必仔细阅读[自我推广常见问题解答](http://stackoverflow.com/faq#promotion).另请注意,每次链接到您自己的网站/产品时,您都要*免费发布免责声明.

推荐阅读

程序员
如何在包装时使列表项在网格上排列？

如何解决《如何在包装时使列表项在网格上排列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
没有模块名称pyspark错误

如何解决《没有模块名称pyspark错误》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何在Hibernate中将日期保存为varchar？

如何解决《如何在Hibernate中将日期保存为varchar？》经验，为你挑选了1个好方法。 ... [详细]
程序员
UILabel垂直对齐

如何解决《UILabel垂直对齐》经验，为你挑选了0个好方法。 ... [详细]
程序员
PythonAnywhere:尝试使用easygui模块时出现Tkinter.py错误

如何解决《PythonAnywhere:尝试使用easygui模块时出现Tkinter.py错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
vba,getElementsByClassName,HTMLSource的双引号都消失了

如何解决《vba,getElementsByClassName,HTMLSource的双引号都消失了》经验，为你挑选了1个好方法。 ... [详细]
程序员
从objectId数组中删除ObjectId

如何解决《从objectId数组中删除ObjectId》经验，为你挑选了0个好方法。 ... [详细]
程序员
Javascript循环索引问题

如何解决《Javascript循环索引问题》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何计算单个字母的出现次数

如何解决《如何计算单个字母的出现次数》经验，为你挑选了1个好方法。 ... [详细]
程序员
返回自己的自定义OrderedDict

如何解决《返回自己的自定义OrderedDict》经验，为你挑选了1个好方法。 ... [详细]
程序员
将ISO 639-1转换为ISO 639-2

如何解决《将ISO639-1转换为ISO639-2》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何缓存读取？

如何解决《如何缓存读取？》经验，为你挑选了1个好方法。 ... [详细]
程序员
你能根据`Monads`来定义`Comonads`吗？

如何解决《你能根据`Monads`来定义`Comonads`吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Apple推送通知无法在生产中使用

如何解决《Apple推送通知无法在生产中使用》经验，为你挑选了0个好方法。 ... [详细]
程序员
拖放(事件)不会触发ajax POST

如何解决《拖放(事件)不会触发ajaxPOST》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用OpenCV在棋盘中检测中国象棋棋子

如何解决《使用OpenCV在棋盘中检测中国象棋棋子》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何访问ListBox中所选项的属性并将其粘贴到TextBox中

如何解决《如何访问ListBox中所选项的属性并将其粘贴到TextBox中》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python正则表达式在内部找到并替换

如何解决《Python正则表达式在内部找到并替换》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过PInvoke"Hello World"

如何解决《通过PInvoke"HelloWorld"》经验，为你挑选了1个好方法。 ... [详细]
程序员
美丽的汤元内容标记

如何解决《美丽的汤元内容标记》经验，为你挑选了1个好方法。 ... [详细]

雨天是最美

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章