特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ...
分类:
其他好文 时间:
2018-07-03 16:57:21
阅读次数:
187
8.1非线性假设 (1)无论线性回归还是逻辑回归当特征量太多时,计算的负荷会非常大。如50x50像素有2500特征,如果两两组合将会有25002/2个(接近300万个特征)。普通的线性回归和逻辑回归模型不能有效处理这么多特征,这时候需要用神经网络了。 8.2神经元和大脑 大脑的某一块可以经过学习,学 ...
分类:
其他好文 时间:
2018-07-02 00:10:42
阅读次数:
135
6.1分类问题 回归问题的输出可能是很大的数,而在分类问题中,比如二分类,希望输出的值是0或1,如何将回归输出的值转换成分类的输出0,1成为关键。 6.2假说表示 其中: hθ(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性即hθ(x)=P(y=1|x;θ)。 6.3判定边 ...
分类:
其他好文 时间:
2018-07-01 23:07:30
阅读次数:
273
Mapreduce+Hive+Spark+Scala平台搭建 说明 平台搭建成功后,使用Java语言进行算法设计和应用的开发。文末有使用java设计的逻辑回归(Logistics Regression)做小数据集的二分类问题。 一、搭建准备 VMWare Workstation Ubuntu 14. ...
分类:
其他好文 时间:
2018-06-21 15:34:02
阅读次数:
307
机器学习算法题 线性回归和逻辑回归的异同? SVM和LR(逻辑回归)有什么不同? 线性回归的输入变量和输出变量都是连续的,逻辑回归的输入变量是连续的,输出变量是类别(或者说是离散的、枚举的)。 SVM和LR一般都用于处理分类问题,不同的是二者的实现原理,SVM是以支持向量到分类平面的距离最大化为优化 ...
分类:
编程语言 时间:
2018-06-20 21:34:37
阅读次数:
342
把上次建模校赛一个根据三围将女性分为四类(苹果型、梨形、报纸型、沙漏)的问题用逻辑回归实现了,包括从excel读取数据等一系列操作。 Excel的格式如下:假设有r列,则前r-1列为数据,最后一列为类别,类别需要从1开始,1~k类, 如上表所示,前10列是身高、胸围、臀围等数据(以及胸围和腰围、胸围 ...
分类:
其他好文 时间:
2018-06-16 11:55:01
阅读次数:
185
适用因变量一般有1和0(是否)两种取值,表示取值为1的概率. 采用随机逻辑回归剔除自变量(剔除false),逻辑回归的本质还是一种线型模型,被筛选掉的变量不一定就跟结果没关系,可能存在非线型相关. ...
分类:
其他好文 时间:
2018-06-07 15:33:05
阅读次数:
560
1.问题引入 总括:逻辑回归其实就是将分类问题数学化,也就是将类别的现象用具体的函数去刻画。 现象:如下图,就是一个二分类的具体现象,我们总可以找到一条曲线(判定边界)将两种现象或者特征分割开来. 2.问题求解 问题1:如何用函数去刻画上述分类问题中的判定边界? 我们可以将上述判定边界分成两个类别, ...
分类:
其他好文 时间:
2018-06-05 15:29:02
阅读次数:
261
github: "代码实现之逻辑回归" 本文算法均使用python3实现 1. 什么是逻辑回归 《机器学习实战》一书中提到: 利用逻辑回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类(主要用于解决二分类问题)。 由以上描述我 ...
分类:
其他好文 时间:
2018-06-04 22:24:59
阅读次数:
187