假设您要采用CMU的语音数据集输入,如下所示:
ABERRATION AE2 B ER0 EY1 SH AH0 N ABERRATIONAL AE2 B ER0 EY1 SH AH0 N AH0 L ABERRATIONS AE2 B ER0 EY1 SH AH0 N Z ABERT AE1 B ER0 T ABET AH0 B EH1 T ABETTED AH0 B EH1 T IH0 D ABETTING AH0 B EH1 T IH0 NG ABEX EY1 B EH0 K S ABEYANCE AH0 B EY1 AH0 N S
(单词在左边,右边是一系列音素,在此处输入键)
您想将其用作机器学习系统的训练数据,该系统将使用新单词并猜测它们将如何用英语发音。
至少对我来说不是那么明显,因为没有固定大小的字母可以映射到音素。我觉得与马尔可夫链有关的事情可能是正确的方法。
你会怎么做?
这个问题称为音素到音素的转换,这是自然语言处理的一个子问题。Google 提出了一些论文。