为什么语音识别如此困难?涉及的具体挑战是什么?我已经阅读了一个关于语音识别的问题,这个问题部分回答了我的一些问题,但答案主要是轶事而不是技术问题.它仍然没有真正回答为什么我们仍然不能在这个问题上投入更多的硬件.
我已经看到使用神经网络和环境FFT分析执行自动降噪的工具,效果很好,所以我看不出为什么我们仍然在努力解决噪音,除非在诸如可笑的大声背景噪音或多个语音源等困难情况下.
除此之外,是不是只是使用非常大,复杂,训练有素的神经网络进行处理,然后投入硬件以使其足够快地工作?
我知道强烈的口音是一个问题,我们都有口语,但当这个人用缓慢而清晰的美国或英国口音说话时,这些识别引擎仍然会弄错.
那么,这笔交易是什么?有哪些技术问题使计算机仍然难以理解我?
一些技术原因:
您需要大量标记的训练数据,一旦考虑到所有不同的重音,声音等,就很难获得这些数据.
神经网络和类似的梯度下降算法不能很好地扩展 - 只是使它们更大(更多层,更多节点,更多连接)并不能保证它们能够在合理的时间内学会解决您的问题.扩展机器学习以解决复杂任务仍然是一个难以解决的问题.
许多机器学习方法需要标准化数据(例如,定义的起点,标准音高,标准速度).移出这些参数后,它们无法正常工作.有一些技术,如卷积神经网络等来解决这些问题,但它们都增加了复杂性,需要大量的专家微调.
语音的数据大小可能非常大 - 数据的大小使工程问题和计算要求更具挑战性.
语音数据通常需要在上下文中进行解释才能完全理解 - 人类大脑非常善于根据理解的语境"填补空白".在其他形式(如愿景)的帮助下填写缺失的信息和不同的解释.当前算法不"理解"上下文,因此他们不能使用它来帮助解释语音数据.这尤其成问题,因为除非在上下文中考虑,否则许多声音/单词是模糊的.
总的来说,语音识别是一项复杂的任务.没有难以理解的努力,但很难你不应该期待任何突然的奇迹,它肯定会让很多研究人员忙碌多年.....