我有一个框架,在A列中存储文本评论,在B列中存储评分(1到5)。
id .....review ..............rating 1 .....That was awful ......1...
例如,我需要基于word:occurrances词汇表等功能创建一个简单的(基于算法的)分类器,该分类器可以预测等级> 3或<3(假设如果等级> 3和0,如果<)
我不擅长Python和机器学习,因此我被Google搜索的所有示例所困扰。
请解释一下如何在该示例案例中提取特征,如何训练模型等等,或者为该案例提供出色的导师(我无法将sklearn导师转换为我的案例)。
您可以在scikit中非常轻松地执行此操作。
假设您有X和y数据:
X = ['the food was really delicious', 'the food was really terrible'] y = [5,2]
使用,CountVectorizer
您可以将数据转换为2行代码中的数字:
from sklearn.feature_extraction.text import CountVectorizer x_data = CountVectorizer().fit_transform(X)
这会将您的数据完全转换为计数,然后可以将其输入所需的任何算法中:
from sklearn.neighbors import KNeighbors clf = KNeighbors().fit(x_data, y)