算法设计人员很难解决这个问题,这个问题有多难?
真的那么复杂吗?
我很难理解为什么这个话题如此成问题.任何人都可以举个例子说明为什么会这样吗?
听觉处理是一项非常复杂的任务.人类进化已经产生了一个非常好的系统,我们没有意识到它有多好.如果三个人同时与你交谈,你将能够专注于一个信号并丢弃其他信号,即使它们更响亮.噪音也很好丢弃.事实上,如果您听到人声向后播放,听觉系统的第一阶段会将此信号发送到与真实语音信号不同的处理区域,因为系统会将其视为"无语音".这是人类拥有的杰出能力的一个例子.
语音识别从70年代开始迅速发展,因为研究人员正在研究语音的产生.这是一个更简单的系统:声带是否兴奋,声带的共振......这是一个易于理解的机械系统.这种方法的主要产品是倒谱分析.这导致自动语音识别(ASR)达到可接受的结果.但这是一种次优方法.噪音分离是非常糟糕的,即使它在干净的环境中或多或少地工作,它也不会在背景中与嘈杂的音乐一起工作,而不是像人类那样.
最佳方法取决于对听觉系统的理解.它在耳蜗的第一阶段,下丘......还涉及大脑.我们对此并不了解.这是范式的一个艰难变化.
Hynek Hermansky教授在一篇论文中比较了人类想要飞行时的研究现状.我们不知道秘密是什么 - 羽毛?翅膀拍打? - 直到我们发现伯努利的力量.
因为如果人们发现很难理解其他具有强烈口音的人,为什么你认为计算机会更好呢?
我记得读过微软有一个团队致力于语音识别,他们称自己为"Wreck a Nice Beach"团队(他们自己的软件给他们的名字).
要将语音转换为单词,它并不像映射离散声音那么简单,也必须要理解语境.该软件需要具有一生编码的人类经验.
这种问题比仅语音识别更普遍.它还存在于视觉处理,自然语言处理,人工智能......
语音识别受语义鸿沟问题的影响:
语义间隙通过不同的语言表示(例如语言或符号)来表征对象的两个描述之间的差异.在计算机科学中,只要将普通的人类活动,观察和任务转移到计算表示中,该概念就是相关的
在音频波形和文本词之间,差距很大,
在这个词和它的含义之间,它甚至更大......
beecos iyfe peepl很难找到uvver peepl wif e strang acsent wie doo yoo fink compootrs wyll bee ani bettre ayt it?
我敢打赌,花了你半秒时间才弄明白我输入的内容是什么,而且所有这些都是以不同的"重音"重复西蒙斯的回答.处理能力还没有,但它已经到了那里.
语言的多样性将成为主要因素,使其变得困难.方言和重音会使这更复杂.还有,背景.这本书被读了.这本书是红色的.你如何确定差异.这需要额外的努力,这样可以更容易地首先输入东西.
现在,如果更有必要,可能会有更多的努力用于此,但其他形式的数据输入的进展如此迅速,以至于认为没有必要.
当然,有些地方会很棒,甚至非常有用或有用.您双手已满或无法查看屏幕输入的情况.帮助残疾人等.但其中大多数是利基市场,有自己的解决方案.也许其中一些人正在努力解决这个问题,但大多数使用计算机的环境并不适合进行语音识别.我更喜欢安静的工作环境.对计算机的无休止的喋喋不休会使串音成为现实问题.
除此之外,除非您在计算机上规定散文,否则使用键盘,鼠标或触摸可以更轻松,更快速地进行任何其他类型的输入.我曾尝试使用语音输入进行编码.从头到尾都是痛苦的.