可以使用Google的语音识别API通过执行请求来获取音频文件(WAV,MP3等)的转录 http://www.google.com/speech-api/v2/recognize?...
示例:我在WAV文件中说过" 一二三五 ".谷歌API给了我这个:
{ u'alternative': [ {u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, {u'transcript': u'one two three four five'} ], u'final': True }
问题:是否可以获得每个单词的时间(以秒为单位)?
用我的例子:
['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
即,
在时间00:00:00.23和00:00:00.80之间已经说过"一个"字样,在时间00:00:01.03和00:00:01.45(以秒为单位)之间说出了"两个"字样.
PS:寻找支持除英语之外的其他语言的API,尤其是法语.
我相信另一个答案现在已经过时了.现在可以使用Google Cloud Search API:https: //cloud.google.com/speech/docs/async-time-offsets
谷歌API无法实现.
如果需要单词时间戳,可以使用其他API,例如:
CMUSphinx - 免费的离线语音识别API
SpeechMatics SaaS语音识别API
来自IBM的语音识别API