所以我已经使用python编程了一段时间了。我用python创建了一些简单的AI聊天机器人,它们通过文本进行通信。我想将其提升到一个新的水平,类似于个人伴侣AI。我的目标是放在树莓派上(我有一个与pi兼容的便携式充电器,麦克风和扬声器),并使其成为离线AI,可以与之交谈,做笔记,记住信息等。我想知道一种方法将离线STT和TTS引擎合并到我的python程序中。(我发现的大多数STT和TTS引擎都是通过google,亚马逊等在线提供的。)预先感谢。
我已经检查了离线STT。我尝试在下面运行所有这些内容并查看我的评论。
您可以根据自己的目的查看它们。
线上
wit.ai https://wit.ai/ 可以在商业产品中使用。
为机器人,应用程序,服务和设备建立品牌独特的自然语言交互。https://api.ai/ https://docs.api.ai/docs/languages
离线
CMUSphinx http://cmusphinx.sourceforge.net CMU Sphinx语音识别引擎。CMU Sphinx-语音识别工具包-由于资源需求低,可以在移动设备上使用脱机语音识别。
https://pypi.python.org/pypi/SpeechRecognition/ https://github.com/Uberi/speech_recognition
eSpeak NG是一款开源语音合成器,支持93种语言和口音。(支持中文) https://github.com/rhdunn/espeak eSpeak是一种紧凑的,多语言,开放源代码的语音合成器。它仅读取文本文件和stdin(在控制台行中)。
Microsoft针对通用Windows平台的UWP语音识别 https://docs.microsoft.com/zh-cn/windows/uwp/input-and-devices/speech-recognition 启用Windows Runtime应用程序中命令和控制的语音识别。
Kaldi是使用C ++编写的语音识别工具包,并根据Apache License v2.0获得许可。Kaldi供语音识别研究人员使用。(支持中文) https://github.com/kaldi-asr/kaldi http://kaldi-asr.org/doc/about.html 在Windows上进行安装时,出现错误,无法继续。此外,这是在网站上写的:“请注意,Windows安装程序已过时且未经定期测试,并且并非当前所有代码都可以在其上编译。”
Tensorflow-speech-recognition https://github.com/pannous/tensorflow-speech-recognition 使用Google的tensorflow深度学习框架,序列到序列神经网络的语音识别。它是面向研究的。该项目是从https://github.com/pannous/caffe-speech-recognition进行的
深度语音https://github.com/mozilla/DeepSpeech 百度DeepSpeech架构的TensorFlow实现面向研究。