我打算为Linux编写一个使用文本到语音和语音识别的程序.有什么最好的工具/库?我应该使用Windows代替能够使用更好的工具吗?这些工具需要可以从控制台或C程序轻松调用.
对于语音识别,有各种狮身人面像.不同的变体有不同的优点和缺点,这里比较Sphinx版本.我相信Sphinx 4是Java,但其他的是C语言.
这很大程度上取决于你试图识别的是什么语音.
这是2005年的一篇文章,解释了创建听写程序的一些困难:http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html.如果你想要,Julius语音识别引擎似乎很有希望,但你需要添加自己的声学和语言模型.您也许可以使用voxforge声学模型.
如果你不想写一个听写程序,那么你有一个更容易的任务.指令程序的词汇量有限,例如"如果你想继续使用英语,请说"英语".
我使用pocketsphinx和gstreamer制作了一个程序,可以自动编辑TWiT播客中出现的" twitter " 字样.在我根据播客的成绩单使用我自己的语言模型之前,它根本不起作用; 来自语音识别器的机器转录是无用的/搞笑的,但是他们找到关键字的工作很顺利.