14赞

Keras管道中的Tokenizer错误

作者：帆侮听我悄悄说星星 | 2023-09-07 14:42

如何解决《Keras管道中的Tokenizer错误》经验，为你挑选了1个好方法。

我想用keras作为作者归属.我有一个(文本,标签)列表.我试图使用keras内置矢量化器,但我收到以下错误:

向量化序列数据...回溯(最近一次调用最后一次):文件"",第1行,在文件"/home/angelo/org/courses/corpusling/finalproject/src/neuralnet.py",第46行,在X_train中= tokenizer.texts_to_matrix(X_train,mode ='binary')文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第166行,在texts_to_matrix sequences = self.texts_to_sequences(texts)文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第131行,在self.texts_to_sequences_generator(文本)中的vect的texts_to_sequences中:文件"/home/angelo/org/courses/corpusling/finalproject/venv0/lib/python3.5/site-packages/keras/preprocessing/text.py",第150行,在texts_to_sequences_generator中i = self.word_index.get(w)AttributeError:'Tokenizer'对象没有属性'word_index'

以下是我目前的代码:

import glob
import os
import pandas as pd
import numpy as np
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.preprocessing.text import Tokenizer
from keras.utils import np_utils


def get_label(filename):
    tmp = os.path.split(filename)[0]
    label = os.path.basename(tmp)
    return label


def read_file(filename):
    with open(filename) as f:
        text = f.read()
    return text


traindocs = "../data/C50/C50train/*/*.txt"
testdocs = "../data/C50/C50test/*/*.txt"

documents_train = (read_file(f) for f in glob.iglob(traindocs))
labels_train = (get_label(f) for f in glob.iglob(traindocs))

documents_test = (read_file(f) for f in glob.iglob(testdocs))
labels_test = (get_label(f) for f in glob.iglob(testdocs))

df_train = pd.DataFrame([documents_train, labels_train])
df_train = df_train.transpose()
df_train.rename(columns={0: 'text', 1: 'author'}, inplace=True)
df_test = pd.DataFrame([documents_test, labels_test])
df_test = df_test.transpose()
df_test.rename(columns={0: 'text', 1: 'author'}, inplace=True)

max_words = 1000
print('Vectorizing sequence data...')
tokenizer = Tokenizer(nb_words=max_words)

X_train, Y_train = df_train.text, df_train.author
X_test, Y_test = df_test.text, df_test.author

X_train = tokenizer.texts_to_matrix(X_train, mode='binary')
X_test = tokenizer.texts_to_matrix(X_test, mode='binary')

nb_classes = np.max(Y_train) + 1

print('Convert class vector to binary class matrix (for use with categorical_crossentropy)')
Y_train = np_utils.to_categorical(Y_train, nb_classes)
Y_test = np_utils.to_categorical(Y_test, nb_classes)

model = Sequential()

model.add(Dense(output_dim=512, input_dim=(max_words,)))
model.add(Activation("relu"))
model.add(Dense(output_dim=(np.max(Y_train)+1)))
model.add(Activation("softmax"))

model.compile(loss='categorical_crossentropy',
              optimizer='sgd', metrics=['accuracy'])

model.fit(X_train, Y_train, nb_epoch=5, batch_size=32)

loss_and_metrics = model.evaluate(X_test, Y_test, batch_size=32)

indraforyou.. 12

您需要在使用tokenizer.fit_on_texts(texts)前使用tokenizer.texts_to_matrix()

这texts是文本数据列表(列车和测试).

fit_on_texts()用它来构建word_index.它只是数字映射的唯一字.此映射稍后用于生成矩阵.

1> indraforyou..：

您需要在使用tokenizer.fit_on_texts(texts)前使用tokenizer.texts_to_matrix()

这texts是文本数据列表(列车和测试).

fit_on_texts()用它来构建word_index.它只是数字映射的唯一字.此映射稍后用于生成矩阵.

推荐阅读

程序员
如何检查Google API下的设备是否启用了位置服务

如何解决《如何检查GoogleAPI下的设备是否启用了位置服务》经验，为你挑选了1个好方法。 ... [详细]
程序员
在提交表单之前,根据下拉列表的值更改动态填充表单字段

如何解决《在提交表单之前,根据下拉列表的值更改动态填充表单字段》经验，为你挑选了1个好方法。 ... [详细]
程序员
尝试呈现其视图不在窗口层次结构中的UIViewController

如何解决《尝试呈现其视图不在窗口层次结构中的UIViewController》经验，为你挑选了0个好方法。 ... [详细]
程序员
Cmake不会工作 - 没有当前的工作目录

如何解决《Cmake不会工作-没有当前的工作目录》经验，为你挑选了1个好方法。 ... [详细]
程序员
变量顺序对sscanf有影响吗？

如何解决《变量顺序对sscanf有影响吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Arduino Yun vs tessel vs espruino

如何解决《ArduinoYunvstesselvsespruino》经验，为你挑选了2个好方法。 ... [详细]
程序员
在悬停时旋转字体真棒图标

如何解决《在悬停时旋转字体真棒图标》经验，为你挑选了2个好方法。 ... [详细]
程序员
在VBScript中调用exe

如何解决《在VBScript中调用exe》经验，为你挑选了1个好方法。 ... [详细]
程序员
无法在沙箱环境中加载iframe

如何解决《无法在沙箱环境中加载iframe》经验，为你挑选了0个好方法。 ... [详细]
程序员
insmod错误:插入'./hello.ko': - 无效的模块格式"

如何解决《insmod错误:插入'./hello.ko':-无效的模块格式"》经验，为你挑选了1个好方法。 ... [详细]
程序员
django conn_max_age和uwsgi

如何解决《djangoconn_max_age和uwsgi》经验，为你挑选了0个好方法。 ... [详细]
程序员
将float(1.2)拆分为舍入数(1)和十进制(2)

如何解决《将float(1.2)拆分为舍入数(1)和十进制(2)》经验，为你挑选了1个好方法。 ... [详细]
程序员
AJAX提交和500服务器错误

如何解决《AJAX提交和500服务器错误》经验，为你挑选了0个好方法。 ... [详细]
程序员
wxPython：如何一键清除TextCtrl中的默认文本

如何解决《wxPython：如何一键清除TextCtrl中的默认文本》经验，为你挑选了1个好方法。 ... [详细]
程序员
R中的qplot中不存在'method'参数？

如何解决《R中的qplot中不存在'method'参数？》经验，为你挑选了2个好方法。 ... [详细]
程序员
我在哪里可以找到svn错误代码的详尽列表

如何解决《我在哪里可以找到svn错误代码的详尽列表》经验，为你挑选了1个好方法。 ... [详细]
程序员
推动Heroku失败 - 没有这样的应用致命

如何解决《推动Heroku失败-没有这样的应用致命》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何查看Swift文件的公共API"标题"？

如何解决《如何查看Swift文件的公共API"标题"？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Retrofit中一起使用@Field和@Body参数

如何解决《在Retrofit中一起使用@Field和@Body参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
ggplot和两个不同的geom_line():图例不会出现

如何解决《ggplot和两个不同的geom_line():图例不会出现》经验，为你挑选了2个好方法。 ... [详细]

帆侮听我悄悄说星星

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章