前文:统计挖掘的一些事一些情(一) 实际上,无论是日常的统计学习还是挖掘学习中,回归分析都可以算是大家最早接触,也是整个体系当中相当重要的一个内容了,所以咱们这期就从回归分析说起吧。 一般来说,借助回归分析,我们希望可以量化描述预测变量与响应变量的关系,同时帮助我们进行预测。其他的例子还有:广告的投 ...
分类:
其他好文 时间:
2016-10-14 17:48:04
阅读次数:
139
今天在看李航的《统计学习方法》的决策树剪枝过程中,又一次发现了正则化这个概念。故百度并记录如下。 ...
分类:
其他好文 时间:
2016-10-13 02:36:36
阅读次数:
275
0. 概述:
Logistic回归是统计学中的经典分类方法,最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型,
logistic回归模型与最大熵模型都是对数线性模型。
本文第一...
分类:
其他好文 时间:
2016-10-12 11:43:03
阅读次数:
254
背景: 李航的《统计学习方法》一书中提到:决策树算法通常采用启发式算法,故了解之 问题解答: 时间有限,这里也只是将算法和启发式算法的区别和简单发展摘录如下: 一、算法和启发式方法之间的差别很微妙,两个术语的意思也有一些重叠。就本书的目的而言,它们之间的差别就在于其距离最终解决办法的间接程度:算法直 ...
分类:
编程语言 时间:
2016-10-07 13:40:00
阅读次数:
232
背景:在看李航的《统计学习方法时》提到了NP完全问题,于是摆之。 问题解答:以下是让我豁然开朗的解答的摘抄: 最简单的解释:P:算起来很快的问题NP:算起来不一定快,但对于任何答案我们都可以快速的验证这个答案对不对NP-hard:比所有的NP问题都难的问题NP-complete:满足两点:1. 是N ...
分类:
其他好文 时间:
2016-10-07 13:31:08
阅读次数:
175
一、损失函数和风险函数 损失函数(loss function)是度量模型一次预测的好坏,风险函数度量平均意义下模型预测好坏。 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定理,当样本容量N趋于无穷大时,经验风险Remp趋于期望风险Rexp。当用经验风险去预测 ...
分类:
其他好文 时间:
2016-09-28 15:47:12
阅读次数:
106
判别模型与生成模型 前面也有过介绍,回顾一下,判别模型的意思就是它不关心数据是怎么产生的,不关心数据之间有何概率关系,它只关心数据之间有什么不同,这种不同会造成什么结果。比如说给你一堆水果,让你把它们中相同种类的放在一个篮子里,判别模型的话,我们直接通过分辨两个果子之间的差别,是黄的还是红的,是大的 ...
分类:
其他好文 时间:
2016-09-20 06:46:22
阅读次数:
115
花了一周多的时间把python粗浅学了一遍,看代码无太大问题。 《统计学习方法》粗略过了一遍,把几种常用的学习类型及特征有了一个整体印象,每个算法和公式的推导过程没来得及细研究。后续待实践中反复琢磨、验证。 网上找了几十套不错的boostrap模板,网站的模样大致有数了。真是意外之喜:) 目前在复习 ...
分类:
其他好文 时间:
2016-09-13 23:56:29
阅读次数:
193
统计学习:统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也成为统计机器人学习[1]。 统计学习分类:有监督学习与无监督学习[2]。 统计学习三要素:模型、策略与算法[1]。 统计学习的对象:统计学习的对象是数据。统计学习从数据出发,提取数据的特征,抽取 ...
分类:
其他好文 时间:
2016-09-11 12:46:44
阅读次数:
257
在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布,即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立模型,即使用已经产生的数据去训练,然后使用...
分类:
其他好文 时间:
2016-09-07 21:13:40
阅读次数:
220