当前位置:  开发笔记 > 编程语言 > 正文

加载word2vec模块时,'utf-8'解码错误

如何解决《加载word2vec模块时,'utf-8'解码错误》经验,为你挑选了1个好方法。

我必须使用包含大量中文字符的word2vec模块.该模块由我的同事使用Java进行培训,并保存为bin文件.

我安装了gensim并尝试加载模块,但发生以下错误:

In [1]: import gensim  

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True)

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: unexpected end of data

我试图在python 2.7和3.5中加载模块,以同样的方式失败.那么如何在gensim中加载模块呢?谢谢.



1> zfz..:

该模块是由Java培训的大量汉字.我无法弄清楚原始语料库的编码格式.该错误可以通过gensim FAQ中的描述来解决,

使用带有标志的load_word2vec_format来忽略字符解码错误:

In [1]: import gensim

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True, unicode_errors='ignore')

但我不知道忽略编码错误是否重要.

推荐阅读
虎仔球妈_459
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有