随机森林算法入门(python)

作者：ERIK又 | 2021-09-03 05:52

随机森林是一个非常灵活的机器学习方法，从市场营销到医疗保险有着众多的应用。它可以用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性。

前言：随机森林是一个非常灵活的机器学习方法，从市场营销到医疗保险有着众多的应用。它可以用于市场营销对客户获取和存留建模或预测病人的疾病风险和易感性。

随机森林能够用于分类和回归问题，可以处理大量特征，并能够帮助估计用于建模数据变量的重要性。

这篇文章是关于如何使用Python构建随机森林模型。

1 什么是随机森林

随机森林可以用于几乎任何一种预测问题（包括非线性问题）。它是一个相对较新的机器学习策略（90年代诞生于贝尔实验室）可以用在任何方面。它属于机器学习中的集成学习这一大类。

1.1 集成学习

集成学习是将多个模型进行组合来解决单一的预测问题。它的原理是生成多个分类器模型，各自独立地学习并作出预测。这些预测最后结合起来得到预测结果，因此和单独分类器的结果相比，结果一样或更好。

随机森林是集成学习的一个分支，因为它依靠于决策树的集成。更多关于python实现集成学习的文档： Scikit-Learn 文档。

1.2 随机决策树

我们知道随机森林是将其他的模型进行聚合，但具体是哪种模型呢？从其名称也可以看出，随机森林聚合的是分类（或回归）树。一颗决策树是由一系列的决策组合而成的，可用于数据集的观测值进行分类。

2 为什么要用它

随机森林是机器学习方法中的Leatherman（多功能折叠刀）。你几乎可以把任何东西扔给它。它在估计推断映射方面做的特别好，从而不需要类似SVM医一样过多的调参（这点对时间紧迫的朋友非常好）。

2.1 一个映射的例子

随机森林可以在未经特意手工进行数据变换的情况下学习。以函数f(x)=log(x)为例。

我们将在Yhat自己的交互环境Rodeo中利用Python生成分析数据，你可以在here下载Rodeo的Mac,Windows和Linux的安装文件。

首先，我们先生成一下数据并添加噪声。

import numpy as np
import pylab as pl

x = np.random.uniform(1, 100, 1000)
y = np.log(x) + np.random.normal(0, .3, 1000)

pl.scatter(x, y, s=1, label="log(x) with noise")

pl.plot(np.arange(1, 100), np.log(np.arange(1, 100)), c="b", label="log(x) true function")
pl.xlabel("x")
pl.ylabel("f(x) = log(x)")
pl.legend(loc="best")
pl.title("A Basic Log Function")
pl.show()

得到如下结果：

3.3 回归

随机森林也可以用于回归问题。

我发现，不像其他的方法，随机森林非常擅长于分类变量或分类变量与连续变量混合的情况。

4 一个简单的Python示例

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import numpy as np

iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)
df.head()

train, test = df[df['is_train']==True], df[df['is_train']==False]

features = df.columns[:4]
clf = RandomForestClassifier(n_jobs=2)y, _ = pd.factorize(train['species'])
clf.fit(train[features], y)

preds = iris.target_names[clf.predict(test[features])]

pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])

下面就是你应该看到的结果了。由于我们随机选择数据，所以实际结果每次都会不一样。

以上就是随机森林算法入门(python)的内容，更多相关内容请关注PHP中文网（www.php1.cn）！

推荐阅读

程序员
如何缓存读取？

如何解决《如何缓存读取？》经验，为你挑选了1个好方法。 ... [详细]
程序员
你能根据`Monads`来定义`Comonads`吗？

如何解决《你能根据`Monads`来定义`Comonads`吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
Apple推送通知无法在生产中使用

如何解决《Apple推送通知无法在生产中使用》经验，为你挑选了0个好方法。 ... [详细]
程序员
拖放(事件)不会触发ajax POST

如何解决《拖放(事件)不会触发ajaxPOST》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用OpenCV在棋盘中检测中国象棋棋子

如何解决《使用OpenCV在棋盘中检测中国象棋棋子》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何访问ListBox中所选项的属性并将其粘贴到TextBox中

如何解决《如何访问ListBox中所选项的属性并将其粘贴到TextBox中》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python正则表达式在内部找到并替换

如何解决《Python正则表达式在内部找到并替换》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过PInvoke"Hello World"

如何解决《通过PInvoke"HelloWorld"》经验，为你挑选了1个好方法。 ... [详细]
程序员
美丽的汤元内容标记

如何解决《美丽的汤元内容标记》经验，为你挑选了1个好方法。 ... [详细]
程序员
随机分类的数字到变量

如何解决《随机分类的数字到变量》经验，为你挑选了1个好方法。 ... [详细]
程序员
iOS 9自定义转换 - 未调用animationControllerForDismissedController

如何解决《iOS9自定义转换-未调用animationControllerForDismissedController》经验，为你挑选了1个好方法。 ... [详细]
程序员
将JSON反序列化为对象C#

如何解决《将JSON反序列化为对象C#》经验，为你挑选了1个好方法。 ... [详细]
程序员
d3访问分组条形图中的嵌套数据

如何解决《d3访问分组条形图中的嵌套数据》经验，为你挑选了1个好方法。 ... [详细]
程序员
Dynamics CRM 2013图表DrillDown排序

如何解决《DynamicsCRM2013图表DrillDown排序》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Visual Studio 2015中切换已登录的用户？

如何解决《如何在VisualStudio2015中切换已登录的用户？》经验，为你挑选了1个好方法。 ... [详细]
程序员
是不是可以为ForkJoinPool提供线程库或名称模式？

如何解决《是不是可以为ForkJoinPool提供线程库或名称模式？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Flask:如何在蓝图中的每个路径之前运行方法？

如何解决《Flask:如何在蓝图中的每个路径之前运行方法？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Textarea字段在提交时返回空

如何解决《Textarea字段在提交时返回空》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在OSx更新后修复损坏的python 2.7.11

如何解决《如何在OSx更新后修复损坏的python2.7.11》经验，为你挑选了2个好方法。 ... [详细]
程序员
如何使用HTML,CSS和JS制作基于音频标签的自定义音乐播放器

如何解决《如何使用HTML,CSS和JS制作基于音频标签的自定义音乐播放器》经验，为你挑选了0个好方法。 ... [详细]

ERIK又

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章