4赞

python逻辑回归(初学者)

作者：linjiabin43 | 2023-09-11 09:21

如何解决《python逻辑回归(初学者)》经验，为你挑选了1个好方法。

我正在使用python教自己一些逻辑回归.我想在演练中应用的经验教训在这里在维基百科条目中的小数据集在这里.

有些东西看起来不太对劲.维基百科和Excel解算器(使用此视频中的方法验证)给出拦截-4.0777和系数1.5046,但是我从github示例构建的代码分别输出-0.924200和0.756024.

我试图使用的代码如下.有什么明显的错误吗？

import numpy as np
import pandas as pd
from patsy import dmatrices
from sklearn.linear_model import LogisticRegression


X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

zipped = list(zip(X,y))
df = pd.DataFrame(zipped,columns = ['study_hrs','p_or_f'])

y, X = dmatrices('p_or_f ~ study_hrs',
                  df, return_type="dataframe")

y = np.ravel(y)

model = LogisticRegression()
model = model.fit(X,y)
print(pd.DataFrame(np.transpose(model.coef_),X.columns))

>>>
                  0
Intercept -0.924200
study_hrs  0.756024

lejlot.. 11

解

只需将模型创建行更改为

model = LogisticRegression(C=100000, fit_intercept=False)

分析问题

默认情况下,sklearn通过拟合强度(小C大正则化,大C小正则化)解决正则化LogisticRegressionC=1.

该类使用liblinear库,newton-cg和lbfgs求解器实现正则化逻辑回归.它可以处理密集和稀疏输入.使用包含64位浮点数的C有序数组或CSR矩阵以获得最佳性能; 任何其他输入格式将被转换(和复制).

因此,要获得他们的模型,你应该适合

model = LogisticRegression(C=1000000)

这使

Intercept -2.038853 # this is actually half the intercept
study_hrs  1.504643 # this is correct

此外,问题还在于您在patsy中处理数据的方式,请参阅简化的正确示例

import numpy as np
from sklearn.linear_model import LogisticRegression

X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

X = np.array([[x] for x in X])
y = np.ravel(y)

model = LogisticRegression(C=1000000.)
model = model.fit(X,y)

print('coef', model.coef_)
print('intercept', model.intercept_)

给

coef [[ 1.50464059]]
intercept [-4.07769916]

究竟是什么问题？dmatrices默认情况下执行此操作时,将输入数据嵌入一列(偏差)

X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

zipped = list(zip(X,y))
df = pd.DataFrame(zipped,columns = ['study_hrs','p_or_f'])

y, X = dmatrices('p_or_f ~ study_hrs',
                  df, return_type="dataframe")

print(X)

这导致

    Intercept  study_hrs
0           1       0.50
1           1       0.75
2           1       1.00
3           1       1.25
4           1       1.50
5           1       1.75
6           1       1.75
7           1       2.00
8           1       2.25
9           1       2.50
10          1       2.75
11          1       3.00
12          1       3.25
13          1       3.50
14          1       4.00
15          1       4.25
16          1       4.50
17          1       4.75
18          1       5.00
19          1       5.50

这就是为什么由此产生的偏差只是真实偏差的一半 - scikit学会也添加了一列......所以你现在有两个偏见,因此最佳解决方案是给它们每一个重量的一半给一个人.

那么你能做什么？

不要以这种方式使用patsy

禁止patsy添加偏见

告诉sklearn不要添加偏见

import numpy as np
import pandas as pd
from patsy import dmatrices
from sklearn.linear_model import LogisticRegression

X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

zipped = list(zip(X,y))
df = pd.DataFrame(zipped,columns = ['study_hrs','p_or_f'])

y, X = dmatrices('p_or_f ~ study_hrs',
                  df, return_type="dataframe")

y = np.ravel(y)

model = LogisticRegression(C=100000, fit_intercept=False)
model = model.fit(X,y)
print(pd.DataFrame(np.transpose(model.coef_),X.columns))

给

Intercept -4.077571
study_hrs  1.504597

如预期的

1> lejlot..：

解

只需将模型创建行更改为

model = LogisticRegression(C=100000, fit_intercept=False)

分析问题

默认情况下,sklearn通过拟合强度(小C大正则化,大C小正则化)解决正则化LogisticRegressionC=1.

该类使用liblinear库,newton-cg和lbfgs求解器实现正则化逻辑回归.它可以处理密集和稀疏输入.使用包含64位浮点数的C有序数组或CSR矩阵以获得最佳性能; 任何其他输入格式将被转换(和复制).

因此,要获得他们的模型,你应该适合

model = LogisticRegression(C=1000000)

这使

Intercept -2.038853 # this is actually half the intercept
study_hrs  1.504643 # this is correct

此外,问题还在于您在patsy中处理数据的方式,请参阅简化的正确示例

import numpy as np
from sklearn.linear_model import LogisticRegression

X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

X = np.array([[x] for x in X])
y = np.ravel(y)

model = LogisticRegression(C=1000000.)
model = model.fit(X,y)

print('coef', model.coef_)
print('intercept', model.intercept_)

给

coef [[ 1.50464059]]
intercept [-4.07769916]

究竟是什么问题？dmatrices默认情况下执行此操作时,将输入数据嵌入一列(偏差)

X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

zipped = list(zip(X,y))
df = pd.DataFrame(zipped,columns = ['study_hrs','p_or_f'])

y, X = dmatrices('p_or_f ~ study_hrs',
                  df, return_type="dataframe")

print(X)

这导致

    Intercept  study_hrs
0           1       0.50
1           1       0.75
2           1       1.00
3           1       1.25
4           1       1.50
5           1       1.75
6           1       1.75
7           1       2.00
8           1       2.25
9           1       2.50
10          1       2.75
11          1       3.00
12          1       3.25
13          1       3.50
14          1       4.00
15          1       4.25
16          1       4.50
17          1       4.75
18          1       5.00
19          1       5.50

那么你能做什么？

不要以这种方式使用patsy

禁止patsy添加偏见

告诉sklearn不要添加偏见

import numpy as np
import pandas as pd
from patsy import dmatrices
from sklearn.linear_model import LogisticRegression

X = [0.5,0.75,1.0,1.25,1.5,1.75,1.75,2.0,2.25,2.5,2.75,3.0,3.25,
3.5,4.0,4.25,4.5,4.75,5.0,5.5]
y = [0,0,0,0,0,0,1,0,1,0,1,0,1,0,1,1,1,1,1,1]

zipped = list(zip(X,y))
df = pd.DataFrame(zipped,columns = ['study_hrs','p_or_f'])

y, X = dmatrices('p_or_f ~ study_hrs',
                  df, return_type="dataframe")

y = np.ravel(y)

model = LogisticRegression(C=100000, fit_intercept=False)
model = model.fit(X,y)
print(pd.DataFrame(np.transpose(model.coef_),X.columns))

给

Intercept -4.077571
study_hrs  1.504597

如预期的

推荐阅读

程序员
检测图像中的漫画对话气泡区域

如何解决《检测图像中的漫画对话气泡区域》经验，为你挑选了0个好方法。 ... [详细]
程序员
array_length()函数中的第二个参数是什么？

如何解决《array_length()函数中的第二个参数是什么？》经验，为你挑选了1个好方法。 ... [详细]
程序员
使用win32 API函数启用/禁用任务管理器,而不是使用Windows注册表

如何解决《使用win32API函数启用/禁用任务管理器,而不是使用Windows注册表》经验，为你挑选了0个好方法。 ... [详细]
程序员
"范围''引用的'System.Boolean'类型的"变量",但未在Expression中定义

如何解决《"范围''引用的'System.Boolean'类型的"变量",但未在Expression中定义》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何配置WildFly 8.2.0日志记录以在调试级别上显示应用程序

如何解决《如何配置WildFly8.2.0日志记录以在调试级别上显示应用程序》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何将v8 :: String转换为const char*

如何解决《如何将v8::String转换为constchar*》经验，为你挑选了0个好方法。 ... [详细]
程序员
无法启动skydns

如何解决《无法启动skydns》经验，为你挑选了1个好方法。 ... [详细]
程序员
Spring:在CrudRepository中覆盖save方法

如何解决《Spring:在CrudRepository中覆盖save方法》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在COBOL中编写SQLite回调

如何解决《如何在COBOL中编写SQLite回调》经验，为你挑选了0个好方法。 ... [详细]
程序员
正确管理大于GPU可用内存的结果数组？

如何解决《正确管理大于GPU可用内存的结果数组？》经验，为你挑选了0个好方法。 ... [详细]
程序员
3D无限亚军游戏平台生成给出了例外

如何解决《3D无限亚军游戏平台生成给出了例外》经验，为你挑选了1个好方法。 ... [详细]
程序员
Python设置切片复杂性

如何解决《Python设置切片复杂性》经验，为你挑选了1个好方法。 ... [详细]
程序员
nativeLibraryDirectories = [/ vendor / lib64，/ system / lib64]]]找不到“ libvideoeditor_jni.so”

如何解决《nativeLibraryDirectories=[/vendor/lib64，/system/lib64]]]找不到“libvideoeditor_jni.so”》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何在Jenkins工作流程脚本中使用Log Parser插件

如何解决《如何在Jenkins工作流程脚本中使用LogParser插件》经验，为你挑选了1个好方法。 ... [详细]
程序员
错误设置证书验证位置：CAfile ca-bundle.crt CApath：无

如何解决《错误设置证书验证位置：CAfileca-bundle.crtCApath：无》经验，为你挑选了0个好方法。 ... [详细]
程序员
Tensorflow图像读空

如何解决《Tensorflow图像读空》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何在u-boot中禁用串行控制台(非内核)

如何解决《如何在u-boot中禁用串行控制台(非内核)》经验，为你挑选了1个好方法。 ... [详细]
程序员
DynamoDB updateItem失败

如何解决《DynamoDBupdateItem失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
通过宏传递宏参数

如何解决《通过宏传递宏参数》经验，为你挑选了1个好方法。 ... [详细]
程序员
React.js无法使用Plunker

如何解决《React.js无法使用Plunker》经验，为你挑选了1个好方法。 ... [详细]

linjiabin43

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章