检测单词中的音节

作者：乐韵答题 | 2023-09-01 14:24

如何解决《检测单词中的音节》经验，为你挑选了7个好方法。

我需要找到一种相当有效的方法来检测单词中的音节.例如,

隐形 - > in-vi-sib-le

可以使用一些音节化规则:

V CV VC CVC CCV CCCV CVCC

*其中V是元音,C是辅音.例如,

发音(5 Pro-nun-ci-a-tion; CV-CVC-CV-V-CVC)

我尝试过很少的方法,其中包括使用正则表达式(只有你想要计算音节才有用)或硬编码规则定义(证明效率非常低效的强力方法),最后使用有限状态自动机(没有任何有用的结果).

我的应用程序的目的是创建一个给定语言的所有音节的字典.该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成.

如果除了我之前的方法之外,我可以提供另一种方法来解决这个问题.

我在Java工作,但C/C++,C#,Python,Perl ......中的任何提示都适合我.

1> jason..：

为了连字,请阅读有关此问题的TeX方法.特别参见Frank Liang的论文论文, 由Com-put-er提供的Word Hy-phen-a-tion.他的算法非常准确,然后包含一个小例外字典,用于算法不起作用的情况.

我喜欢你引用了关于这个主题的论文论文,它对原始海报有点暗示,这可能不是一个简单的问题.

请注意,TeX算法用于查找合法的连字点,这与音节分区不完全相同.确实,连字点落在音节分区上,但并非所有音节分区都是有效的连字点.例如,连字符(通常)不在单词的任何一个字母或两个字母内使用.我也相信TeX模式被调整为用于假阳性的假阴性(从不将连字符放在不属于它的地方,即使这意味着缺少一些合理的连字机会).

2> 小智..：

我偶然发现了这个页面,寻找同样的东西,并在这里找到了梁文的一些实现:https: //github.com/mnater/hyphenator

除非你喜欢阅读60页的论文,而不是为非独特的问题调整免费的可用代码.:)

3> hoju..：

这是使用NLTK的解决方案:

from nltk.corpus import cmudict
d = cmudict.dict()
def nsyl(word):
  return [len(list(y for y in x if y[-1].isdigit())) for x in d[word.lower()]]

你会建议作为不在该语料库中的单词的后备？

@Pureferret [cmudict](http://www.speech.cs.cmu.edu/cgi-bin/cmudict)是北美英语单词的发音字典.它将单词分成音素,音素短于音节(例如,'cat'这个单词被分成三个音素:K-AE-T).但是元音也有一个"压力标记":0,1或2,取决于单词的发音(因此'cat'中的AE变为AE1).答案中的代码计算应力标记,从而计算元音的数量 - 这有效地给出了音节的数量(注意在OP的例子中每个音节只有一个元音).

4> Joe Basirico..：

我正在尝试解决这个问题,这个程序将计算一段文本的flesch-kincaid和flesch读数.我的算法使用了我在本网站上找到的内容:http://www.howmanysyllables.com/howtocountsyllables.html,它变得相当接近.它仍然在像隐形和连字符这样复杂的单词上遇到麻烦,但我发现它可以用于我的目的.

它具有易于实施的优点.我发现"es"既可以是音节也可以不是.这是一场赌博,但我决定删除算法中的es.

private int CountSyllables(string word)
    {
        char[] vowels = { 'a', 'e', 'i', 'o', 'u', 'y' };
        string currentWord = word;
        int numVowels = 0;
        bool lastWasVowel = false;
        foreach (char wc in currentWord)
        {
            bool foundVowel = false;
            foreach (char v in vowels)
            {
                //don't count diphthongs
                if (v == wc && lastWasVowel)
                {
                    foundVowel = true;
                    lastWasVowel = true;
                    break;
                }
                else if (v == wc && !lastWasVowel)
                {
                    numVowels++;
                    foundVowel = true;
                    lastWasVowel = true;
                    break;
                }
            }

            //if full cycle and no vowel found, set lastWasVowel to false;
            if (!foundVowel)
                lastWasVowel = false;
        }
        //remove es, it's _usually? silent
        if (currentWord.Length > 2 && 
            currentWord.Substring(currentWord.Length - 2) == "es")
            numVowels--;
        // remove silent e
        else if (currentWord.Length > 1 &&
            currentWord.Substring(currentWord.Length - 1) == "e")
            numVowels--;

        return numVowels;
    }


        

5> Chris..：
这是一个特别困难的问题,LaTeX连字算法无法完全解决这个问题.一些可用的方法和所涉及的挑战的一个很好的总结可以在文章评估英语自动音节化算法(Marchand,Adsett和Damper 2007)中找到.

        

6> 小智..：
感谢Joe Basirico,在C#中分享快速而肮脏的实现.我使用过大型库,它们可以工作,但它们通常有点慢,对于快速项目,你的方法运行正常.

以下是Java中的代码以及测试用例:

public static int countSyllables(String word)
{
    char[] vowels = { 'a', 'e', 'i', 'o', 'u', 'y' };
    char[] currentWord = word.toCharArray();
    int numVowels = 0;
    boolean lastWasVowel = false;
    for (char wc : currentWord) {
        boolean foundVowel = false;
        for (char v : vowels)
        {
            //don't count diphthongs
            if ((v == wc) && lastWasVowel)
            {
                foundVowel = true;
                lastWasVowel = true;
                break;
            }
            else if (v == wc && !lastWasVowel)
            {
                numVowels++;
                foundVowel = true;
                lastWasVowel = true;
                break;
            }
        }
        // If full cycle and no vowel found, set lastWasVowel to false;
        if (!foundVowel)
            lastWasVowel = false;
    }
    // Remove es, it's _usually? silent
    if (word.length() > 2 && 
            word.substring(word.length() - 2) == "es")
        numVowels--;
    // remove silent e
    else if (word.length() > 1 &&
            word.substring(word.length() - 1) == "e")
        numVowels--;
    return numVowels;
}

public static void main(String[] args) {
    String txt = "what";
    System.out.println("txt="+txt+" countSyllables="+countSyllables(txt));
    txt = "super";
    System.out.println("txt="+txt+" countSyllables="+countSyllables(txt));
    txt = "Maryland";
    System.out.println("txt="+txt+" countSyllables="+countSyllables(txt));
    txt = "American";
    System.out.println("txt="+txt+" countSyllables="+countSyllables(txt));
    txt = "disenfranchized";
    System.out.println("txt="+txt+" countSyllables="+countSyllables(txt));
    txt = "Sophia";
    System.out.println("txt="+txt+" countSyllables="+countSyllables(txt));
}


结果如预期的那样(它对Flesch-Kincaid来说足够好):

txt=what countSyllables=1
txt=super countSyllables=2
txt=Maryland countSyllables=3
txt=American countSyllables=3
txt=disenfranchized countSyllables=5
txt=Sophia countSyllables=2

        

7> Tersosauros..：
撞到@Tihamer和@ joe-basirico.非常有用的功能,不完美,但适用于大多数中小型项目.Joe,我用Python重写了你的代码实现:

def countSyllables(word):
    vowels = "aeiouy"
    numVowels = 0
    lastWasVowel = False
    for wc in word:
        foundVowel = False
        for v in vowels:
            if v == wc:
                if not lastWasVowel: numVowels+=1   #don't count diphthongs
                foundVowel = lastWasVowel = True
                        break
        if not foundVowel:  #If full cycle and no vowel found, set lastWasVowel to false
            lastWasVowel = False
    if len(word) > 2 and word[-2:] == "es": #Remove es - it's "usually" silent (?)
        numVowels-=1
    elif len(word) > 1 and word[-1:] == "e":    #remove silent e
        numVowels-=1
    return numVowels


希望有人觉得这很有用!



    

    

    
        推荐阅读
        
            
                                
                    
                        程序员
                        crm 2011 OP:运行什么服务器的插件？
                    

                    
                                                
                        如何解决《crm2011OP:运行什么服务器的插件？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        微软Band 2上的UWP
                    

                    
                                                
                        如何解决《微软Band2上的UWP》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        限制方法中泛型类型的目的是什么？
                    

                    
                                                
                        如何解决《限制方法中泛型类型的目的是什么？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        默认导出后的分号
                    

                    
                                                
                        如何解决《默认导出后的分号》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Delphi  - 以零为单位递增整数
                    

                    
                                                
                        如何解决《Delphi-以零为单位递增整数》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        OutputStreamWriter.append不将文本附加到Android编程的文本文件中
                    

                    
                                                
                        如何解决《OutputStreamWriter.append不将文本附加到Android编程的文本文件中》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        Java自动装箱和数学表达式？
                    

                    
                                                
                        如何解决《Java自动装箱和数学表达式？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在C/C++中,ZERO左移还是右移实际生成指令？
                    

                    
                                                
                        如何解决《在C/C++中,ZERO左移还是右移实际生成指令？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        UIRectCornerTopRight的圆角不起作用
                    

                    
                                                
                            
                        
                                                
                        如何解决《UIRectCornerTopRight的圆角不起作用》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么lodash的.isObject,.isPlainObject的行为与"typeof x ==='object'"不同？
                    

                    
                                                
                        如何解决《为什么lodash的.isObject,.isPlainObject的行为与"typeofx==='object'"不同？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        连接表的索引
                    

                    
                                                
                        如何解决《连接表的索引》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        如何删除tumblr控件/按钮/ iframe？
                    

                    
                                                
                        如何解决《如何删除tumblr控件/按钮/iframe？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        包装BCD到DPD:如何改进这个amd64装配程序？
                    

                    
                                                
                        如何解决《包装BCD到DPD:如何改进这个amd64装配程序？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么使用这个全局`operator <<`无法编译？
                    

                    
                                                
                        如何解决《为什么使用这个全局`operator<<`无法编译？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        为什么requestIdToken返回null？
                    

                    
                                                
                        如何解决《为什么requestIdToken返回null？》经验，为你挑选了2个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        OpenWRT:无法安装软件包 - 内存问题
                    

                    
                                                
                            
                        
                                                
                        如何解决《OpenWRT:无法安装软件包-内存问题》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        是否可以将事件侦听器绑定到外部脚本的阴影dom中的元素？
                    

                    
                                                
                        如何解决《是否可以将事件侦听器绑定到外部脚本的阴影dom中的元素？》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        升级到react-native 0.16错误
                    

                    
                                                
                            
                        
                                                
                        如何解决《升级到react-native0.16错误》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        TensorFlow检查点保存并读取
                    

                    
                                                
                        如何解决《TensorFlow检查点保存并读取》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                                
                    
                        程序员
                        在同一个StringBuilder实例上调用toString时输出不同
                    

                    
                                                
                        如何解决《在同一个StringBuilder实例上调用toString时输出不同》经验，为你挑选了1个好方法。 ...
                        [详细]
                    
                    

                


                

            
        
    

    
        吐了个 "CAO" !
        
            
                吐个槽吧,看都看了
            
            
                
                                        会员登录 | 用户注册
























    

    
        
            
            
                
                    
                
            

            
                乐韵答题            

            
                这个屌丝很懒，什么也没留下！            
            
            

                                
                    
                    关注作者
                            

        
    


    
        Tags | 热门标签
        
            
                                
                    actionscrip
                
                                
                    bash
                
                                
                    c#
                
                                
                    c++
                
                                
                    c语言
                
                                
                    erlang
                
                                
                    flutter
                
                                
                    go
                
                                
                    golang
                
                                
                    java
                
                                
                    javascript
                
                                
                    lua
                
                                
                    node.js
                
                                
                    perl
                
                                
                    php
                
                                
                    python
                
                                
                    scala
                
                                
                    typescript
                
                                
            
        
    


    
        RankList | 热门文章
        
            
                                
                    1*&aPtr和&*aPtr之间有什么不同？
                
                                
                    2Django:不支持对url()的字符串视图参数的支持,将在Django 1.10中删除
                
                                
                    3Swift为默认返回值生成错误
                
                                
                    4使用Babel和解构进行ng-annotate错误
                
                                
                    5将节点标志/ args传递给子进程
                
                                
                    6在C++ Actors Framework中在类型化actor之间转发消息的最佳实践？
                
                                
                    7有没有一种简单的方法来自定义Acumatica内置下拉列表？
                
                                
                    8Angular2有没有办法从路由器中获取路由列表？
                
                                
                    9整理声明的SQL变量
                
                                
                    10如果我使用基于令牌的身份验证,我应该如何加载图像
                
                                
                    11如何将字符串传递给git log -S而不是单词？
                
                                
                    12只选择字符串C++中的前几个字符
                
                                
                    13使用私钥连接到服务器时，pysftp AuthenticationException
                
                                
                    14如何在RxJS中完成Observable
                
                                
                    15模拟自动执行的ExecutorService
                
                                
                    16家庭作业:使用指针制作数组
                
                                
                    17在URL中使用HTML中的.svg文件？
                
                                
                    18标识符规范化:为什么微标志转换为希腊字母mu？
                
                                
                    19如何在值上膨胀对RDD？
                
                                
                    20使np.loadtxt与多个可能的分隔符一起使用