1赞

加载word2vec模块时,'utf-8'解码错误

作者：虎仔球妈_459 | 2023-09-09 13:53

如何解决《加载word2vec模块时,'utf-8'解码错误》经验，为你挑选了1个好方法。

我必须使用包含大量中文字符的word2vec模块.该模块由我的同事使用Java进行培训,并保存为bin文件.

我安装了gensim并尝试加载模块,但发生以下错误:

In [1]: import gensim  

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True)

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 96-97: unexpected end of data

我试图在python 2.7和3.5中加载模块,以同样的方式失败.那么如何在gensim中加载模块呢？谢谢.

1> zfz..：

该模块是由Java培训的大量汉字.我无法弄清楚原始语料库的编码格式.该错误可以通过gensim FAQ中的描述来解决,

使用带有标志的load_word2vec_format来忽略字符解码错误:

In [1]: import gensim

In [2]: model = gensim.models.Word2Vec.load_word2vec_format('/data5/momo-projects/user_interest_classification/code/word2vec/vectors_groups_1105.bin', binary=True, unicode_errors='ignore')

但我不知道忽略编码错误是否重要.

推荐阅读

程序员
`pip install pyside`冻结在Linux上？

如何解决《`pipinstallpyside`冻结在Linux上？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python中的方法重载:更多重载

如何解决《Python中的方法重载:更多重载》经验，为你挑选了1个好方法。 ... [详细]
程序员
Rails:为什么我的服务器将http重定向到https

如何解决《Rails:为什么我的服务器将http重定向到https》经验，为你挑选了1个好方法。 ... [详细]
程序员
在c ++中使用"this"关键字对性能有影响吗？

如何解决《在c++中使用"this"关键字对性能有影响吗？》经验，为你挑选了1个好方法。 ... [详细]
程序员
这个AngularJS工厂的例子究竟如何？有些疑惑

如何解决《这个AngularJS工厂的例子究竟如何？有些疑惑》经验，为你挑选了0个好方法。 ... [详细]
程序员
GOCR没有使用培训结果

如何解决《GOCR没有使用培训结果》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Xcode中调整UIStackView的子视图？

如何解决《如何在Xcode中调整UIStackView的子视图？》经验，为你挑选了0个好方法。 ... [详细]
程序员
可靠地将类型符号(ITypeSymbol)与Roslyn进行比较

如何解决《可靠地将类型符号(ITypeSymbol)与Roslyn进行比较》经验，为你挑选了0个好方法。 ... [详细]
程序员
什么是hadoop中的序列文件？

如何解决《什么是hadoop中的序列文件？》经验，为你挑选了1个好方法。 ... [详细]
程序员
需要有关Flask安全模块的密码散列算法的建议

如何解决《需要有关Flask安全模块的密码散列算法的建议》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何设置pep8 linter接受2个空格缩进？

如何解决《如何设置pep8linter接受2个空格缩进？》经验，为你挑选了0个好方法。 ... [详细]
程序员
过滤其值小于0的pandas数据帧行

如何解决《过滤其值小于0的pandas数据帧行》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Ansible中,是否可以根据剧本定义身份验证方法？

如何解决《在Ansible中,是否可以根据剧本定义身份验证方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用哈希表在球拍中排序更快

如何解决《使用哈希表在球拍中排序更快》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将QString乘以它自身重复n次？

如何解决《如何将QString乘以它自身重复n次？》经验，为你挑选了1个好方法。 ... [详细]
程序员
在python中使用pandas将csv文件附加到一个

如何解决《在python中使用pandas将csv文件附加到一个》经验，为你挑选了1个好方法。 ... [详细]
程序员
POEdit不会在HTML标记中提取字符串

如何解决《POEdit不会在HTML标记中提取字符串》经验，为你挑选了0个好方法。 ... [详细]
程序员
在flink中测量作业执行时间

如何解决《在flink中测量作业执行时间》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将删除函数传递给make_shared？

如何解决《如何将删除函数传递给make_shared？》经验，为你挑选了2个好方法。 ... [详细]
程序员
排序后再次添加已删除的DataTable行

如何解决《排序后再次添加已删除的DataTable行》经验，为你挑选了1个好方法。 ... [详细]

虎仔球妈_459

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章