当前位置:  开发笔记 > 人工智能 > 正文

为什么语音识别没有提升?

如何解决《为什么语音识别没有提升?》经验,为你挑选了6个好方法。

算法设计人员很难解决这个问题,这个问题有多难?

真的那么复杂吗?

我很难理解为什么这个话题如此成问题.任何人都可以举个例子说明为什么会这样吗?



1> nacmartin..:

听觉处理是一项非常复杂的任务.人类进化已经产生了一个非常好的系统,我们没有意识到它有多好.如果三个人同时与你交谈,你将能够专注于一个信号并丢弃其他信号,即使它们更响亮.噪音也很好丢弃.事实上,如果您听到人声向后播放,听觉系统的第一阶段会将此信号发送到与真实语音信号不同的处理区域,因为系统会将其视为"无语音".这是人类拥有的杰出能力的一个例子.

语音识别从70年代开始迅速发展,因为研究人员正在研究语音的产生.这是一个更简单的系统:声带是否兴奋,声带的共振......这是一个易于理解的机械系统.这种方法的主要产品是倒谱分析.这导致自动语音识别(ASR)达到可接受的结果.但这是一种次优方法.噪音分离是非常糟糕的,即使它在干净的环境中或多或少地工作,它也不会在背景中与嘈杂的音乐一起工作,而不是像人类那样.

最佳方法取决于对听觉系统的理解.它在耳蜗的第一阶段,下丘......还涉及大脑.我们对此并不了解.这是范式的一个艰难变化.

Hynek Hermansky教授在一篇论文中比较了人类想要飞行时的研究现状.我们不知道秘密是什么 - 羽毛?翅膀拍打? - 直到我们发现伯努利的力量.


为什么这不是一个答案?
+1优秀的解释.

2> Cromulent..:

因为如果人们发现很难理解其他具有强烈口音的人,为什么你认为计算机会更好呢?


你能算99923423423 ^ 32423343吗?不,但电脑可以;)
言语和计算是两件完全不同的事情.计算有一个答案,演讲没有.例如在美国,倾向于将MRSA发音为MERSA,而在英国,我们将其称为MRSA.它们的意思相同,应该以相同的方式翻译,但计算机需要知道差异.对于语言中的任何数量的差异(例如俚语)也是如此.大多数英国人发现不可能理解具有广泛苏格兰口音的人,因为他们发音的方式与他们在英国发音的方式完全不同.
Adinochestva:实际上,即使计算机计算也需要一段时间.并且没有理由为什么人类不能模仿图灵机,所以从理论上讲,它对于计算机和人类来说同样困难.
我喜欢这个解释=)
回应Adinochevstva:是的,我可以计算出非常大的数字.这需要很长时间,但我知道要采取的步骤.我能认出演讲,但我无法解释我是如何做到的 - 我只是这样做.
@onebyone:我认为AakashM使用^作为取幂运算符而不是XOR,但是meh.

3> Andrew Sheph..:

我记得读过微软有一个团队致力于语音识别,他们称自己为"Wreck a Nice Beach"团队(他们自己的软件给他们的名字).

要将语音转换为单词,它并不像映射离散声音那么简单,也必须要理解语境.该软件需要具有一生编码的人类经验.


"认识演讲"〜="破坏一个漂亮的海滩"示例= +1.
即便如此,它也可能/会失败,背景噪音,新口音或主题的惊人变化就像一个肉袋

4> fa...:

这种问题比仅语音识别更普遍.它还存在于视觉处理,自然语言处理,人工智能......

语音识别受语义鸿沟问题的影响:

语义间隙通过不同的语言表示(例如语言或符号)来表征对象的两个描述之间的差异.在计算机科学中,只要将普通的人类活动,观察和任务转移到计算表示中,该概念就是相关的

在音频波形和文本词之间,差距很大,

在这个词和它的含义之间,它甚至更大......



5> Russell Troy..:

beecos iyfe peepl很难找到uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?

我敢打赌,花了你半秒时间才弄明白我输入的内容是什么,而且所有这些都是以不同的"重音"重复西蒙斯的回答.处理能力还没有,但它已经到了那里.


埃弗顿.另一半他们在谈论利物浦.

6> Xetius..:

语言的多样性将成为主要因素,使其变得困难.方言和重音会使这更复杂.还有,背景.这本书被读了.这本书是红色的.你如何确定差异.这需要额外的努力,这样可以更容易地首先输入东西.

现在,如果更有必要,可能会有更多的努力用于此,但其他形式的数据输入的进展如此迅速,以至于认为没有必要.

当然,有些地方会很棒,甚至非常有用或有用.您双手已满或无法查看屏幕输入的情况.帮助残疾人等.但其中大多数是利基市场,有自己的解决方案.也许其中一些人正在努力解决这个问题,但大多数使用计算机的环境并不适合进行语音识别.我更喜欢安静的工作环境.对计算机的无休止的喋喋不休会使串音成为现实问题.

除此之外,除非您在计算机上规定散文,否则使用键盘,鼠标或触摸可以更轻松,更快速地进行任何其他类型的输入.我曾尝试使用语音输入进行编码.从头到尾都是痛苦的.

推荐阅读
贾志军
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有