码迷,mamicode.com
首页 > 其他好文 > 详细

7逻辑回归实践

时间:2020-06-09 09:55:14      阅读:59      评论:0      收藏:0      [点我收藏+]

标签:learn   样本   打开   检查   分数   strip   tar   get   numpy   

1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?】

 · 防止过拟合的方法:

(1)增加样本量(适用任何模型)。

(2)如果数据稀疏,使用L1正则,其他情况,使用L2。

    L1正则,通过增大正则项导致更多参数为0,参数系数化降低模型复杂度,从而抵抗过拟合。

    L2正则,通过使得参数都趋于0,变得很小,降低模型的抖动,从而抵抗过拟合。

(3)通过特征选择,剔除一些不重要的特征,从而降低模型复杂度。

(4)减少使用过度复杂的特征构造工程,保持原特征

(5)检查业务逻辑,判断特征有效性,如是否在用结果预测结果等。

(6)逻辑回归特有的防止过拟合方法:进行离散化处理,所有特征都离散化。

  · 正则化防止过拟合的原理:

(1)L2正则(也叫权重衰减),通过约束参数的范数使系数不要太大,可以在一定程度上减少过拟合情况。

(2)L1正则,在L2的基础上,使网络中的权重尽可能为0,也就相当于减小了网络复杂度,防止过拟合。

【2.用logiftic回归来进行实践操作,数据不限。】

从氙气病预测病马死亡率

(1)划分数据集

 1 from sklearn.linear_model import LogisticRegression
 2 from sklearn.metrics import accuracy_score
 3 import numpy as np
 4 import matplotlib.pyplot as plt
 5 
 6 frTrain = open(‘./data/horseColicTraining.txt‘)  # 打开训练集
 7 frTrain.close()
 8 frTest = open(‘./data/horseColicTest.txt‘)  # 打开测试集
 9 frTest.close()
10 
11 training_set = []
12 training_labels = []
13 testing_set = []
14 testing_labels = []
15 # 解析训练集中的数据特征和Labels
16 # training_set 中存储训练数据集的特征,training_labels 存储训练数据集的样本对应的分类标签
17 for line in frTrain.readlines():
18     curr_line = line.strip().split(‘\t‘)
19     line_array = []
20     for i in range(len(curr_line)):
21         line_array.append(float(curr_line[i]))
22     training_set.append(line_array)
23     training_labels.append(float(curr_line[-1]))
24 
25 # 测试集同理
26 for line in frTest.readlines():
27     curr_line = line.strip().split(‘\t‘)
28     line_array = []
29     for i in range(len(curr_line)):
30         line_array.append(float(curr_line[i]))
31     testing_set.append(line_array)
32     testing_labels.append(float(curr_line[-1]))
33 
34 
35 # 划分为训练集和测试集
36 X_train, X_test, y_train, y_test = training_set, testing_set, training_labels, testing_labels

(2)构建模型

1 model = LogisticRegression()
2 model.fit(X_train, y_train)
3 pre = model.predict(X_test)

(3)模型预测

1 # 打印准确率
2 print(‘正确率:‘, accuracy_score(y_test, pre))
3 # 截距/权重:model.intercept_/ model.coef_

 技术图片

(4)可视化

 1 # 截距/权重:model.intercept_/ model.coef_
 2 # column_stack 将两个数组/矩阵按列合并,transpose 数组转换为矩阵
 3 weights = np.column_stack((model.intercept_, model.coef_)).transpose()
 4 
 5 n = np.shape(X_train)[0]
 6 
 7 X_train = np.mat(X_train)  # 转化为矩阵
 8 
 9 xcord1 = []
10 ycord1 = []
11 xcord2 = []
12 ycord2 = []
13 for i in range(n):
14     if int(y_train[i]) == 1:
15         xcord1.append(X_train[i, 0])  # 生存
16         ycord1.append(X_train[i, 1])
17     else:
18         xcord2.append(X_train[i, 0])  # 死亡
19         ycord2.append(X_train[i, 1])
20 fig = plt.figure()
21 ax = fig.add_subplot(111)
22 ax.scatter(xcord1, ycord1, s=30, c=‘red‘, marker=‘s‘)
23 ax.scatter(xcord2, ycord2, s=30, c=‘green‘)
24 x_ = np.arange(-3.0, 3.0, 0.1)
25 y_ = (-weights[0] - weights[1] * x_) / weights[2]
26 ax.plot(x_, y_)
27 plt.xlabel(‘x1‘)
28 plt.ylabel(‘x2‘)
29 plt.show()

 技术图片

 

 

 

 

参考:正则化方法过拟合问题

7逻辑回归实践

标签:learn   样本   打开   检查   分数   strip   tar   get   numpy   

原文地址:https://www.cnblogs.com/WEJACKSI/p/13070346.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!