8赞

keras 简单 lstm实例(基于one-hot编码)

作者：赛亚兔备_393 | 2021-10-21 16:51

这篇文章主要介绍了keras简单lstm实例(基于one-hot编码)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

简单的LSTM问题，能够预测一句话的下一个字词是什么

固定长度的句子，一个句子有3个词。

使用one-hot编码

各种引用

import keras
from keras.models import Sequential
from keras.layers import LSTM, Dense, Dropout
import numpy as np

数据预处理

data = 'abcdefghijklmnopqrstuvwxyz'
data_set = set(data)
 
word_2_int = {b:a for a,b in enumerate(data_set)}
int_2_word = {a:b for a,b in enumerate(data_set)}
 
word_len = len(data_set)
print(word_2_int)
print(int_2_word)

一些辅助函数

def words_2_ints(words):
 ints = []
 for itmp in words:
  ints.append(word_2_int[itmp])
 return ints
 
print(words_2_ints('ab'))
 
def words_2_one_hot(words, num_classes=word_len):
 return keras.utils.to_categorical(words_2_ints(words), num_classes=num_classes)
print(words_2_one_hot('a'))
def get_one_hot_max_idx(one_hot):
 idx_ = 0
 max_ = 0
 for i in range(len(one_hot)):
  if max_ < one_hot[i]:
   max_ = one_hot[i]
   idx_ = i
 return idx_
 
def one_hot_2_words(one_hot):
 tmp = []
 for itmp in one_hot:
  tmp.append(int_2_word[get_one_hot_max_idx(itmp)])
 return "".join(tmp)
 
print( one_hot_2_words(words_2_one_hot('adhjlkw')) )

构造样本

time_step = 3 #一个句子有3个词
 
def genarate_data(batch_size=5, genarate_num=100):
 #genarate_num = -1 表示一直循环下去,genarate_num=1表示生成一个batch的数据，以此类推
 #这里，我也不知道数据有多少，就这么循环的生成下去吧。
 #入参batch_size 控制一个batch 有多少数据，也就是一次要yield进多少个batch_size的数据
 '''
 例如，一个batch有batch_size=5个样本，那么对于这个例子，需要yield进的数据为：
 abc->d
 bcd->e
 cde->f
 def->g
 efg->h
 然后把这些数据都转换成one-hot形式，最终数据，输入x的形式为：
 
 [第1个batch]
 [第2个batch]
 ...
 [第genarate_num个batch]
 
 每个batch的形式为：
 
 [第1句话（如abc）]
 [第2句话（如bcd）]
 ...
 每一句话的形式为：
 
 [第1个词的one-hot表示]
 [第2个词的one-hot表示]
 ...
 '''
 cnt = 0
 batch_x = []
 batch_y = []
 sample_num = 0
 while(True):
  for i in range(len(data) - time_step):
   batch_x.append(words_2_one_hot(data[i : i+time_step]))
   batch_y.append(words_2_one_hot(data[i+time_step])[0]) #这里数据加[0]，是为了符合keras的输出数据格式。 因为不加[0]，表示是3维的数据。 你可以自己尝试不加0，看下面的test打印出来是什么
   sample_num += 1
   #print('sample num is :', sample_num)
   if len(batch_x) == batch_size:
    yield (np.array(batch_x), np.array(batch_y))
    batch_x = []
    batch_y = []
    if genarate_num != -1:
     cnt += 1
 
    if cnt == genarate_num:
     return
   
for test in genarate_data(batch_size=3, genarate_num=1):
 print('--------x:')
 print(test[0])
 print('--------y:')
 print(test[1])

搭建模型并训练

model = Sequential()
 
# LSTM输出维度为 128
# input_shape控制输入数据的形态
# time_stemp表示一句话有多少个单词
# word_len 表示一个单词用多少维度表示，这里是26维
 
model.add(LSTM(128, input_shape=(time_step, word_len)))
model.add(Dense(word_len, activation='softmax')) #输出用一个softmax，来分类，维度就是26，预测是哪一个字母
 
model.compile(loss='categorical_crossentropy', optimizer='rmsprop', metrics=['accuracy'])
 
model.fit_generator(generator=genarate_data(batch_size=5, genarate_num=-1), epochs=50, steps_per_epoch=10)
#steps_per_epoch的意思是，一个epoch中，执行多少个batch
#batch_size是一个batch中，有多少个样本。
#所以，batch_size*steps_per_epoch就等于一个epoch中，训练的样本数量。(这个说法不对！再观察看看吧)
#可以将epochs设置成1，或者2，然后在genarate_data中打印样本序号，观察到样本总数。

使用训练后的模型进行预测：

result = model.predict(np.array([words_2_one_hot('bcd')]))

print(one_hot_2_words(result))

可以看到，预测结果为

e

补充知识：训练集产生的onehot编码特征如何在测试集、预测集复现

数据处理中有时要用到onehot编码，如果使用pandas自带的get_dummies方法，训练集产生的onehot编码特征会跟测试集、预测集不一样，正确的方式是使用sklearn自带的OneHotEncoder。

代码

import pandas as pd
from sklearn.preprocessing import OneHotEncoder
ohe = OneHotEncoder(handle_unknown='ignore')
data_train=pd.DataFrame({'职业':['数据挖掘工程师','数据库开发工程师','数据分析师','数据分析师'],
     '籍贯':['福州','厦门','泉州','龙岩']})
ohe.fit(data_train)#训练规则
feature_names=ohe.get_feature_names(data_train.columns)#获取编码后的特征名
data_train_onehot=pd.DataFrame(ohe.transform(data_train).toarray(),columns=feature_names)#应用规则在训练集上
 
data_new=pd.DataFrame({'职业':['数据挖掘工程师','jave工程师'],
     '籍贯':['福州','莆田']})
data_new_onehot=pd.DataFrame(ohe.transform(data_new).toarray(),columns=feature_names)#应用规则在预测集上

以上这篇keras 简单 lstm实例(基于one-hot编码)就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持。

推荐阅读

程序员
从字符串右侧删除一定数量的零

如何解决《从字符串右侧删除一定数量的零》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用已删除的复制构造函数和初始化列表重载调用类定义中的成员构造函数

如何解决《使用已删除的复制构造函数和初始化列表重载调用类定义中的成员构造函数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用DNX和ASP.NET 5实现持续交付

如何解决《如何使用DNX和ASP.NET5实现持续交付》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何用里面的两个视图刷新SwipeRefreshLayout

如何解决《如何用里面的两个视图刷新SwipeRefreshLayout》经验，为你挑选了1个好方法。 ... [详细]
程序员
Laravel Eloquent:如何在Json响应中生成假列？

如何解决《LaravelEloquent:如何在Json响应中生成假列？》经验，为你挑选了1个好方法。 ... [详细]
程序员
ES6模块:重新导出为对象

如何解决《ES6模块:重新导出为对象》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查证书是否自签名？

如何解决《如何检查证书是否自签名？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用参考参数

如何解决《使用参考参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
PyQt4:如何在发出信号之前暂停线程？

如何解决《PyQt4:如何在发出信号之前暂停线程？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Docker构建参数

如何解决《Docker构建参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在我的Mac OSX上安装PHP扩展"pcntl"

如何解决《如何在我的MacOSX上安装PHP扩展"pcntl"》经验，为你挑选了1个好方法。 ... [详细]
程序员
spring jdbctemplate get byte array

如何解决《springjdbctemplategetbytearray》经验，为你挑选了0个好方法。 ... [详细]
程序员
SQL datetime比较

如何解决《SQLdatetime比较》经验，为你挑选了2个好方法。 ... [详细]
程序员
按Java 8中的Map列表分组

如何解决《按Java8中的Map列表分组》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python字符串文字串联

如何解决《Python字符串文字串联》经验，为你挑选了1个好方法。 ... [详细]
程序员
doctrine ORM count arraycollection in where condition

如何解决《doctrineORMcountarraycollectioninwherecondition》经验，为你挑选了0个好方法。 ... [详细]
程序员
SPARQL的正则表达式

如何解决《SPARQL的正则表达式》经验，为你挑选了1个好方法。 ... [详细]
程序员
在php中解码json就像字符串一样

如何解决《在php中解码json就像字符串一样》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试在后台线程中加载/设置场景导致"OpenGL错误0x0502 in - [CCSprite draw] 530"

如何解决《尝试在后台线程中加载/设置场景导致"OpenGL错误0x0502in-[CCSpritedraw]530"》经验，为你挑选了1个好方法。 ... [详细]
程序员
java字符串操作,将多个斜杠更改为一个斜杠

如何解决《java字符串操作,将多个斜杠更改为一个斜杠》经验，为你挑选了1个好方法。 ... [详细]

赛亚兔备_393

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章