只需50个单词即可轻松编写用于语音识别的语法文件,因为您可以手动执行此操作.如果你有10,000或100,000个单词,最简单,最有效的方法是什么?
示例:
假设我们有"RC可乐"和"百事可乐".我们将有2个规则组成的语法文件
:饮料:(COLANAME?[可乐可乐苏打])
COLANAME:[rc pepsi]
它将识别"RC","RC Coke","RC Cola","RC Soda","百事可乐",百事可乐","百事可乐"和"百事可乐苏打".
编辑:我说的是语音识别的语法.语音识别系统需要一个附带的语法文件,以便他们知道要识别的内容(gsl,grxml).而且我实际上也在考虑的不仅仅是任何单词,而是一些你不能分类的名字.
现在我明白了.你的意思是语法.您指定的语法格式是无上下文语法的表兄弟.存在关于无上下文语法的自动学习的研究领域.概率无上下文语法是该领域的核心.请参阅Roni rosenfeld关于学习PCFG 的笔记(PostScript),贝叶斯版本(压缩后记)和无监督PCFG学习(PDF).这是一个活跃的研究领域,自这些论文撰写以来已经发生了变化.Eugene Charniak是该领域的一位多产研究员.