当前位置:  开发笔记 > 编程语言 > 正文

将文本数据存储在熊猫框架中,如何使用sklearn实现简单分类

如何解决《将文本数据存储在熊猫框架中,如何使用sklearn实现简单分类》经验,为你挑选了1个好方法。

我有一个框架,在A列中存储文本评论,在B列中存储评分(1到5)。

id .....review ..............rating          
1  .....That was awful ......1...

例如,我需要基于word:occurrances词汇表等功能创建一个简单的(基于算法的)分类器,该分类器可以预测等级> 3或<3(假设如果等级> 3和0,如果<)

我不擅长Python和机器学习,因此我被Google搜索的所有示例所困扰。

请解释一下如何在该示例案例中提取特征,如何训练模型等等,或者为该案例提供出色的导师(我无法将sklearn导师转换为我的案例)。



1> Bunny_Ross..:

您可以在scikit中非常轻松地执行此操作。

假设您有X和y数据:

X = ['the food was really delicious', 'the food was really terrible']
y = [5,2]

使用,CountVectorizer您可以将数据转换为2行代码中的数字:

from sklearn.feature_extraction.text import CountVectorizer
x_data = CountVectorizer().fit_transform(X)    

这会将您的数据完全转换为计数,然后可以将其输入所需的任何算法中:

from sklearn.neighbors import KNeighbors
clf = KNeighbors().fit(x_data, y)

推荐阅读
LEEstarmmmmm
这个屌丝很懒,什么也没留下!
DevBox开发工具箱 | 专业的在线开发工具网站    京公网安备 11010802040832号  |  京ICP备19059560号-6
Copyright © 1998 - 2020 DevBox.CN. All Rights Reserved devBox.cn 开发工具箱 版权所有