为什么语音识别困难？

作者：linjiabin43 | 2023-06-16 09:33

如何解决《为什么语音识别困难？》经验，为你挑选了1个好方法。

为什么语音识别如此困难？涉及的具体挑战是什么？我已经阅读了一个关于语音识别的问题,这个问题部分回答了我的一些问题,但答案主要是轶事而不是技术问题.它仍然没有真正回答为什么我们仍然不能在这个问题上投入更多的硬件.

我已经看到使用神经网络和环境FFT分析执行自动降噪的工具,效果很好,所以我看不出为什么我们仍然在努力解决噪音,除非在诸如可笑的大声背景噪音或多个语音源等困难情况下.

除此之外,是不是只是使用非常大,复杂,训练有素的神经网络进行处理,然后投入硬件以使其足够快地工作？

我知道强烈的口音是一个问题,我们都有口语,但当这个人用缓慢而清晰的美国或英国口音说话时,这些识别引擎仍然会弄错.

那么,这笔交易是什么？有哪些技术问题使计算机仍然难以理解我？

1> mikera..：

一些技术原因:

您需要大量标记的训练数据,一旦考虑到所有不同的重音,声音等,就很难获得这些数据.

神经网络和类似的梯度下降算法不能很好地扩展 - 只是使它们更大(更多层,更多节点,更多连接)并不能保证它们能够在合理的时间内学会解决您的问题.扩展机器学习以解决复杂任务仍然是一个难以解决的问题.

许多机器学习方法需要标准化数据(例如,定义的起点,标准音高,标准速度).移出这些参数后,它们无法正常工作.有一些技术,如卷积神经网络等来解决这些问题,但它们都增加了复杂性,需要大量的专家微调.

语音的数据大小可能非常大 - 数据的大小使工程问题和计算要求更具挑战性.

语音数据通常需要在上下文中进行解释才能完全理解 - 人类大脑非常善于根据理解的语境"填补空白".在其他形式(如愿景)的帮助下填写缺失的信息和不同的解释.当前算法不"理解"上下文,因此他们不能使用它来帮助解释语音数据.这尤其成问题,因为除非在上下文中考虑,否则许多声音/单词是模糊的.

总的来说,语音识别是一项复杂的任务.没有难以理解的努力,但很难你不应该期待任何突然的奇迹,它肯定会让很多研究人员忙碌多年.....

推荐阅读

程序员
如何让sqlite3在Tcl中执行regexp

如何解决《如何让sqlite3在Tcl中执行regexp》经验，为你挑选了1个好方法。 ... [详细]
程序员
有没有官方方法来获取模型的管理选项？

如何解决《有没有官方方法来获取模型的管理选项？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在混合Java/Kotlin项目中使用Dagger 2的Maven配置

如何解决《在混合Java/Kotlin项目中使用Dagger2的Maven配置》经验，为你挑选了0个好方法。 ... [详细]
程序员
Swift - 无法转换'UITabBarController'类型的值

如何解决《Swift-无法转换'UITabBarController'类型的值》经验，为你挑选了1个好方法。 ... [详细]
程序员
为什么以下C++程序打印'0'而不是'6'？

如何解决《为什么以下C++程序打印'0'而不是'6'？》经验，为你挑选了1个好方法。 ... [详细]
程序员
AWS API Gateway:由于配置错误导致执行失败:输出映射不匹配且未配置默认输出映射

如何解决《AWSAPIGateway:由于配置错误导致执行失败:输出映射不匹配且未配置默认输出映射》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swift:CFArray:将值作为UTF字符串获取

如何解决《Swift:CFArray:将值作为UTF字符串获取》经验，为你挑选了1个好方法。 ... [详细]
程序员
Heroku:运行npm install和gulp build for Django app

如何解决《Heroku:运行npminstall和gulpbuildforDjangoapp》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Browserify在ES6中使用Bootstrap和jQuery包时出错

如何解决《使用Browserify在ES6中使用Bootstrap和jQuery包时出错》经验，为你挑选了1个好方法。 ... [详细]
程序员
Emgu CV 3 findContours和Vec4i类型的层级参数是否等效？

如何解决《EmguCV3findContours和Vec4i类型的层级参数是否等效？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将constexpr作为模板参数传递？

如何解决《如何将constexpr作为模板参数传递？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Android PC上的Android工作室更快吗？

如何解决《AndroidPC上的Android工作室更快吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在class属性中引用类名的最佳方法是什么？

如何解决《在class属性中引用类名的最佳方法是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Android Studio更新为1.5后出现Gradle错误

如何解决《将AndroidStudio更新为1.5后出现Gradle错误》经验，为你挑选了1个好方法。 ... [详细]
程序员
实际上是否可以从构造微积分中删除"Pi"？

如何解决《实际上是否可以从构造微积分中删除"Pi"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
电话号码正则表达式不适用于swift

如何解决《电话号码正则表达式不适用于swift》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使docker-compose从远程git存储库构建映像？

如何解决《如何使docker-compose从远程git存储库构建映像？》经验，为你挑选了2个好方法。 ... [详细]
程序员
Swift无法找到并读取属性列表(.plist)文件

如何解决《Swift无法找到并读取属性列表(.plist)文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用BCrypt和Sequelize Model

如何解决《使用BCrypt和SequelizeModel》经验，为你挑选了3个好方法。 ... [详细]
程序员
UICollectionView的自定义焦点引擎行为

如何解决《UICollectionView的自定义焦点引擎行为》经验，为你挑选了0个好方法。 ... [详细]

linjiabin43

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章