13赞

pandas数据处理之标签列字符转数字的实现

作者：家具销售_903 | 2022-01-26 00:11

这篇文章主要介绍了pandas数据处理之标签列字符转数字的实现方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

机器学习中，当我们在进行数据预处理的时候，对于标签列非字符的数据，我们往往需要将其转换成字符，因为有的算法可能不支持非数字类型来做特征。

那么怎么快捷地来着这个转换呢，请看我的示例：

1.构建测试数据

import pandas as pd
array = ['good','bad','well','bad','good','good','well','good']

2.数据转换下，并获取标签列的字典

df = pd.DataFrame(array,columns=['status'])
status_dict = df['status'].unique().tolist()

3.使用函数进行转换

df['transfromed']=df['status'].apply(lambda x : status_dict.index(x))

这样，就将标签列处理好了哈

等用完之后，再转回来

df['transfromed1']= df['transfromed'].apply(lambda x : status_dict[x])

补充：pandas factorize将字符串特征转化为数字特征

将原始数据中的字符串特征转化为模型可以识别的数字特征可是使用pandas自带的factorzie方法。

原始数据的job特征值如下

都是字符串特征,无法用于训练，当然可以单独建立map硬编码处理，但是pandas已经封装好了相应的方法。

data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

推荐阅读

程序员
Spring JPA不在

如何解决《SpringJPA不在》经验，为你挑选了1个好方法。 ... [详细]
程序员
引导程序布局-我们是否应始终使用XS col类

如何解决《引导程序布局-我们是否应始终使用XScol类》经验，为你挑选了1个好方法。 ... [详细]
程序员
分段故障11,因为C中有40 MB的阵列

如何解决《分段故障11,因为C中有40MB的阵列》经验，为你挑选了1个好方法。 ... [详细]
程序员
配置Django和Google云端存储？

如何解决《配置Django和Google云端存储？》经验，为你挑选了3个好方法。 ... [详细]
程序员
使用deleteBy和removeBy之间的JpaRepository区别

如何解决《使用deleteBy和removeBy之间的JpaRepository区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
Azure Web App临时文件清理责任

如何解决《AzureWebApp临时文件清理责任》经验，为你挑选了1个好方法。 ... [详细]
程序员
点击不在Windows上的python 3.5中工作

如何解决《点击不在Windows上的python3.5中工作》经验，为你挑选了3个好方法。 ... [详细]
程序员
如何设置每个文件类型选项卡大小？

如何解决《如何设置每个文件类型选项卡大小？》经验，为你挑选了2个好方法。 ... [详细]
程序员
命名空间标识符的范围是什么？

如何解决《命名空间标识符的范围是什么？》经验，为你挑选了0个好方法。 ... [详细]
程序员
显示缓冲异步通道和通道之间差异的示例？

如何解决《显示缓冲异步通道和通道之间差异的示例？》经验，为你挑选了1个好方法。 ... [详细]
程序员
我需要按一个按钮来发推文

如何解决《我需要按一个按钮来发推文》经验，为你挑选了1个好方法。 ... [详细]
程序员
Visual Studio 2015 Update 1未显示当前的Git分支

如何解决《VisualStudio2015Update1未显示当前的Git分支》经验，为你挑选了1个好方法。 ... [详细]
程序员
限制在派生类中访问方法

如何解决《限制在派生类中访问方法》经验，为你挑选了1个好方法。 ... [详细]
程序员
除非内容溢出视口,否则居中对齐flexbox容器

如何解决《除非内容溢出视口,否则居中对齐flexbox容器》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何强制gradle打印或记录所有已执行的编译器命令？

如何解决《如何强制gradle打印或记录所有已执行的编译器命令？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Android BLE设备收到的结果非常不规律

如何解决《AndroidBLE设备收到的结果非常不规律》经验，为你挑选了0个好方法。 ... [详细]
程序员
R-定位两条曲线的交点

如何解决《R-定位两条曲线的交点》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在点击按钮时更改javascript中的被调用类？

如何解决《如何在点击按钮时更改javascript中的被调用类？》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何使用路线操纵导航栏？

如何解决《如何使用路线操纵导航栏？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Kotlin是否支持monadic理解？

如何解决《Kotlin是否支持monadic理解？》经验，为你挑选了1个好方法。 ... [详细]

家具销售_903

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章

pandas数据处理之 标签列字符转数字的实现

1.构建测试数据

2.数据转换下，并获取标签列的字典

3.使用函数进行转换

pandas数据处理之标签列字符转数字的实现