对于机器学习的实际运用。光停留在知道了解的层面还不够,我们须要对实际中easy遇到的一些问题进行深入的挖掘理解。我打算将一些琐碎的知识点做一个整理。 1 数据不平衡问题 这个问题是经常遇到的。就拿有监督的学习的二分类问题来说吧。我们须要正例和负例样本的标注。假设我们拿到的训练数据正例非常少负例非常多 ...
分类:
编程语言 时间:
2018-03-23 19:23:56
阅读次数:
283
一.逻辑回归问题(分类问题) 其中g(z)被称为逻辑函数或者Sigmiod函数,其函数图形如下: 理解预测函数hθ(x)的意义:其实函数hθ(x)的值是系统认为样本值Y为1的概率大小,可表示为hθ(x)=P(y=1|x;θ)=1-P(y=0|x;θ). 代价函数(Cost Function)J(θ) ...
分类:
其他好文 时间:
2018-03-19 22:18:17
阅读次数:
425
逻辑回归 针对二分类问题,若X是特征集合,Y是类别标签(0,1),假设Y的取值服从伯努利分布,即 $P(Y=0|X)=1 p$ $P(Y=1|X)=p$ 再假设p是可以由已知的特征集合X预测的,令(式2) $$p=\frac{1}{1+e^{ {\theta}^{T} x}}=h_{\theta}( ...
分类:
其他好文 时间:
2018-03-19 13:23:12
阅读次数:
159
AND运算 OR运算 NOT运算 XNOR运算 利用神经网络解决多元分类问题 例如,我们需要识别给定的图像是行人,汽车,摩托车还是货车。 这个问题可用以下的神经网络来表示: 用y(i)来表示结果 训练集可表示为 输出结果为 ...
分类:
其他好文 时间:
2018-03-13 18:14:30
阅读次数:
144
在二分类问题中,通常假设正负类别相对均衡,然而实际应用中类别不平衡的问题,如100, 1000, 10000倍的数据偏斜是非常常见的,比如疾病检测中未患病的人数远超患病的人数,产品质量检测中合格产品数量远超不合格产品等。在检测信用卡欺诈问题中,同样正例的数目稀少,而且正例的数量会随着时间和地点的改变 ...
分类:
其他好文 时间:
2018-03-12 20:59:12
阅读次数:
232
Boosting在分类问题中,通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类性能。AdaBoost最具代表性,由Freund和Schapire在1995年提出;Boost树在2000年由Friedman提出。 ...
分类:
其他好文 时间:
2018-03-08 20:18:27
阅读次数:
247
Softmax Regression是逻辑回归在多分类问题上的推广,主要用于处理多分类问题,其中任意两个类别之间都是线性可分的。 假设有$k$个类别,每个类别的参数向量为${\theta}_j $,那么对于每个样本,其所属类别的概率为: \[P({{y}_{i}}|X,{{\theta }_{j}} ...
分类:
编程语言 时间:
2018-03-04 23:56:03
阅读次数:
265
代码实现分成好多种层级,有的代码零依赖,有的代码依赖某些常用库,有的代码直接调用库。 在本文中,按照不同的层级分别实现PCA 对于分类问题基本任务可以描述如下 x11 x12 x13 x14 y1 x21 x22 x23 x24 y2 x31 x32 x33 x34 y3 ...... PCA用于提 ...
分类:
其他好文 时间:
2018-03-01 14:49:18
阅读次数:
134
分类问题Classification 一些典型的分类问题,如: y的取值不是一条曲线,而是几个离散值。 逻辑回归模型Logistic regression的假设函数表达式 逻辑回归模型中,要使 0<=hθ(x)<=1,可令 其函数图像为 称其为Sigmoid Function或Logistic Fu ...
分类:
其他好文 时间:
2018-02-28 01:08:31
阅读次数:
167
大部分是问项目相关的。只记住了几个关键的问题。 1、手写快排 2、生成模型与判别模型的区别 分类问题:2种形式: F(x)=y p(y|x) 生成模型:由数据学习联合分布概率p(x,y),然后求出条件概率分布p(y|x) p(y|x) = p(x,y)/p(x) 例如,朴素贝叶斯。 判别模型: 直接 ...
分类:
其他好文 时间:
2018-02-27 23:27:13
阅读次数:
443