我很好奇每当遇到预训练词汇表未知的单词时,我如何添加正常随机化的300维向量(元素'type = tf.float32).我正在使用经过预先训练的GloVe单词嵌入,但在某些情况下,我意识到我遇到了未知单词,我想为这个新发现的未知单词创建一个正常随机化的单词向量.
问题是,在我当前的设置中,我使用tf.contrib.lookup.index_table_from_tensor根据已知词汇从单词转换为整数.此函数可以创建新的令牌并将其散列为某些预定义数量的词汇表单词,但我embed
不会包含此新未知散列值的嵌入.我不确定我是否可以简单地将随机嵌入添加到embed
列表的末尾.
我也想以有效的方式做到这一点,因此预先建立的张量流函数或涉及张量流函数的方法可能是最有效的.我定义了预先知道的特殊标记,例如句子结尾标记和默认未知作为空字符串("在索引0处"),但这有限,它能够学习各种不同的未知单词.我目前使用tf.nn .embedding_lookup()作为最后的嵌入步骤.
我希望能够为训练数据中的每个未知单词添加新的随机300d向量,并且我还想为测试期间可能遇到的训练中未见的任何未知标记添加预先制作的随机单词向量.这样做最有效的方法是什么?
def embed_tensor(string_tensor, trainable=True): """ Convert List of strings into list of indicies then into 300d vectors """ # ordered lists of vocab and corresponding (by index) 300d vector vocab, embed = load_pretrained_glove() # Set up tensorflow look up from string word to unique integer vocab_lookup = tf.contrib.lookup.index_table_from_tensor( mapping=tf.constant(vocab), default_value = 0) string_tensor = vocab_lookup.lookup(string_tensor) # define the word embedding embedding_init = tf.Variable(tf.constant(np.asarray(embed), dtype=tf.float32), trainable=trainable, name="embed_init") # return the word embedded version of the sentence (300d vectors/word) return tf.nn.embedding_lookup(embedding_init, string_tensor)
GeertH.. 10
下面的代码示例调整了您的embed_tensor
函数,使得嵌入的单词如下:
对于具有预训练嵌入的单词,使用预训练嵌入初始化嵌入.如果trainable
是,嵌入可以在训练期间保持固定False
.
对于训练数据中没有预训练嵌入的单词,嵌入是随机初始化的.如果trainable
是,嵌入可以在训练期间保持固定False
.
对于测试数据中未出现在训练数据中并且没有预训练嵌入的单词,使用单个随机初始化的嵌入向量.此向量无法训练.
import tensorflow as tf
import numpy as np
EMB_DIM = 300
def load_pretrained_glove():
return ["a", "cat", "sat", "on", "the", "mat"], np.random.rand(6, EMB_DIM)
def get_train_vocab():
return ["a", "dog", "sat", "on", "the", "mat"]
def embed_tensor(string_tensor, trainable=True):
"""
Convert List of strings into list of indices then into 300d vectors
"""
# ordered lists of vocab and corresponding (by index) 300d vector
pretrained_vocab, pretrained_embs = load_pretrained_glove()
train_vocab = get_train_vocab()
only_in_train = list(set(train_vocab) - set(pretrained_vocab))
vocab = pretrained_vocab + only_in_train
# Set up tensorflow look up from string word to unique integer
vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
mapping=tf.constant(vocab),
default_value=len(vocab))
string_tensor = vocab_lookup.lookup(string_tensor)
# define the word embedding
pretrained_embs = tf.get_variable(
name="embs_pretrained",
initializer=tf.constant_initializer(np.asarray(pretrained_embs), dtype=tf.float32),
shape=pretrained_embs.shape,
trainable=trainable)
train_embeddings = tf.get_variable(
name="embs_only_in_train",
shape=[len(only_in_train), EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=trainable)
unk_embedding = tf.get_variable(
name="unk_embedding",
shape=[1, EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=False)
embeddings = tf.concat([pretrained_embs, train_embeddings, unk_embedding], axis=0)
return tf.nn.embedding_lookup(embeddings, string_tensor)
仅供参考,对于未在训练数据中出现并且没有预训练嵌入的单词具有合理的非随机表示,您可以考虑将训练数据中低频率的单词映射到unk标记(即不在你的词汇中)并使unk_embedding
训练.通过这种方式,您可以学习训练数据中看不到的单词的原型.
下面的代码示例调整了您的embed_tensor
函数,使得嵌入的单词如下:
对于具有预训练嵌入的单词,使用预训练嵌入初始化嵌入.如果trainable
是,嵌入可以在训练期间保持固定False
.
对于训练数据中没有预训练嵌入的单词,嵌入是随机初始化的.如果trainable
是,嵌入可以在训练期间保持固定False
.
对于测试数据中未出现在训练数据中并且没有预训练嵌入的单词,使用单个随机初始化的嵌入向量.此向量无法训练.
import tensorflow as tf
import numpy as np
EMB_DIM = 300
def load_pretrained_glove():
return ["a", "cat", "sat", "on", "the", "mat"], np.random.rand(6, EMB_DIM)
def get_train_vocab():
return ["a", "dog", "sat", "on", "the", "mat"]
def embed_tensor(string_tensor, trainable=True):
"""
Convert List of strings into list of indices then into 300d vectors
"""
# ordered lists of vocab and corresponding (by index) 300d vector
pretrained_vocab, pretrained_embs = load_pretrained_glove()
train_vocab = get_train_vocab()
only_in_train = list(set(train_vocab) - set(pretrained_vocab))
vocab = pretrained_vocab + only_in_train
# Set up tensorflow look up from string word to unique integer
vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
mapping=tf.constant(vocab),
default_value=len(vocab))
string_tensor = vocab_lookup.lookup(string_tensor)
# define the word embedding
pretrained_embs = tf.get_variable(
name="embs_pretrained",
initializer=tf.constant_initializer(np.asarray(pretrained_embs), dtype=tf.float32),
shape=pretrained_embs.shape,
trainable=trainable)
train_embeddings = tf.get_variable(
name="embs_only_in_train",
shape=[len(only_in_train), EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=trainable)
unk_embedding = tf.get_variable(
name="unk_embedding",
shape=[1, EMB_DIM],
initializer=tf.random_uniform_initializer(-0.04, 0.04),
trainable=False)
embeddings = tf.concat([pretrained_embs, train_embeddings, unk_embedding], axis=0)
return tf.nn.embedding_lookup(embeddings, string_tensor)
仅供参考,对于未在训练数据中出现并且没有预训练嵌入的单词具有合理的非随机表示,您可以考虑将训练数据中低频率的单词映射到unk标记(即不在你的词汇中)并使unk_embedding
训练.通过这种方式,您可以学习训练数据中看不到的单词的原型.