18赞

为LSTM二进制分类构建语音数据集

作者：虎仔球妈_459 | 2023-09-08 10:30

如何解决《为LSTM二进制分类构建语音数据集》经验，为你挑选了1个好方法。

我正在尝试使用theano进行二进制LSTM分类.我已经完成了示例代码,但是我想构建自己的代码.

我正在使用一小段"Hello"和"Goodbye"录音.我通过为它们提取MFCC功能并将这些功能保存在文本文件中来预处理这些功能.我有20个语音文件(每个10个),我为每个单词生成一个文本文件,因此包含MFCC功能的20个文本文件.每个文件都是13x56矩阵.

我现在的问题是:如何使用此文本文件来训练LSTM？

我对此比较陌生.我也经历了一些关于它的文献,但没有找到对这个概念的真正理解.

使用LSTM的任何更简单的方法也是受欢迎的.

1> Nikolay Shmy..：

有很多现有的实现,例如Tensorflow Implementation,以Kaldi为中心的所有脚本实现,最好先检查它们.

Theano太低级了,你可以尝试使用keras,如教程中所述.您可以"按原样"运行教程以了解事情的进展情况.

然后,您需要准备一个数据集.您需要将数据转换为数据帧序列,并按顺序为每个数据帧分配输出标签.

Keras支持两种类型的RNN - 返回序列的层和返回简单值的层.你可以用两个实验,在代码中你只需要使用return_sequences=True或return_sequences=False

要训练序列,您可以为除最后一个帧之外的所有帧分配虚拟标签,您可以在其中指定要识别的单词的标签.您需要将输入和输出标签放置到数组.所以它将是:

X = [[word1frame1, word1frame2, ..., word1framen],[word2frame1, word2frame2,...word2framen]]

Y = [[0,0,...,1], [0,0,....,2]]

在X中,每个元素都是13个浮点数的向量.在Y中,每个元素只是一个数字 - 中间帧为0,最终帧为单词ID.

要使用标签进行训练,您需要将输入和输出标签放置到数组并且输出数组更简单.所以数据将是:

X = [[word1frame1, word1frame2, ..., word1framen],[word2frame1, word2frame2,...word2framen]]

Y = [[0,0,1], [0,1,0]]

请注意,输出是矢量化的(np_utils.to_categorical),将其转换为矢量而不仅仅是数字.

然后,您创建网络架构.您可以有13个浮点数作为输入,一个矢量用于输出.在中间,您可能有一个完全连接的层,后跟一个lstm层.不要使用太大的图层,从小图层开始.

然后你将这个数据集输入model.fit并训练模型.您可以在训练后估计保持集的模型质量.

由于您只有20个示例,因此会出现收敛问题.你需要更多的例子,最好是成千上万的训练LSTM,你只能使用非常小的模型.

推荐阅读

程序员
我可以在AWS Cloudformation json模板的"参数"中使用"Fn :: Join"吗？

如何解决《我可以在AWSCloudformationjson模板的"参数"中使用"Fn::Join"吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
包含列表太慢,如何改进？

如何解决《包含列表太慢,如何改进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
在TFS登记之前是否执行Get Latest强制要求,以免覆盖/丢失代码？

如何解决《在TFS登记之前是否执行GetLatest强制要求,以免覆盖/丢失代码？》经验，为你挑选了2个好方法。 ... [详细]
程序员
TRUE和FALSE宏的奇怪定义

如何解决《TRUE和FALSE宏的奇怪定义》经验，为你挑选了6个好方法。 ... [详细]
程序员
神经网络:了解theano图书馆

如何解决《神经网络:了解theano图书馆》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用Clang将OpenCL编译为PTX时未解决的extern？

如何解决《使用Clang将OpenCL编译为PTX时未解决的extern？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Lua表 - 具有相同键的两个条目

如何解决《Lua表-具有相同键的两个条目》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何从try-catch简化return语句

如何解决《如何从try-catch简化return语句》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在UI测试期间在Swift应用程序中隐藏键盘

如何解决《如何在UI测试期间在Swift应用程序中隐藏键盘》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用Feign客户端RequestInterceptor转发请求标头或安全上下文

如何解决《使用Feign客户端RequestInterceptor转发请求标头或安全上下文》经验，为你挑选了0个好方法。 ... [详细]
程序员
将Temp列的结果加入表SQL Server

如何解决《将Temp列的结果加入表SQLServer》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在同一个对象中将值从一个属性复制到另一个属性？

如何解决《如何在同一个对象中将值从一个属性复制到另一个属性？》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法检查JavaScript中的所有复选框

如何解决《无法检查JavaScript中的所有复选框》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误刷新路由器反应路由器

如何解决《错误刷新路由器反应路由器》经验，为你挑选了0个好方法。 ... [详细]
程序员
JavaScript确认无法在Chrome中使用

如何解决《JavaScript确认无法在Chrome中使用》经验，为你挑选了1个好方法。 ... [详细]
程序员
MySQL:IF EXISTS ... TRUNCATE

如何解决《MySQL:IFEXISTSTRUNCATE》经验，为你挑选了1个好方法。 ... [详细]
程序员
Jenkins SSH shell在执行远程命令之前关闭

如何解决《JenkinsSSHshell在执行远程命令之前关闭》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查Elixir中的字符串是否为空

如何解决《如何检查Elixir中的字符串是否为空》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用控制台日志"BKSendHIDEvent"冻结iOS 9应用程序

如何解决《使用控制台日志"BKSendHIDEvent"冻结iOS9应用程序》经验，为你挑选了0个好方法。 ... [详细]
程序员
在Azure Web应用程序设置中使用数组

如何解决《在AzureWeb应用程序设置中使用数组》经验，为你挑选了1个好方法。 ... [详细]

虎仔球妈_459

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章