什么是机器学习? 机器学习指的是机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。 目前机器学习主要在一下一些方面发挥作用: 营销类场景:商品推荐、用户群体画像、广告精准投放 金融类场景:贷款发放预测、金融风险控制、股票走势预测、黄金价格预测 SNS关系挖掘:微博粉 ...
分类:
其他好文 时间:
2020-03-30 16:39:57
阅读次数:
164
习题3-4 统计学生成绩 (15分) 本题要求编写程序读入N个学生的百分制成绩,统计五分制成绩的分布。百分制成绩到五分制成绩的转换规则: 大于等于90分为A; 小于90且大于等于80为B; 小于80且大于等于70为C; 小于70且大于等于60为D; 小于60为E。 输入格式: 输入在第一行中给出一个 ...
分类:
其他好文 时间:
2020-03-29 22:45:12
阅读次数:
117
定义 探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。一般有以下几个目的: 弄清楚数据的含义 发现数据的结构 锁定一些重要的特征 异常值以及离群数据的检测( ...
分类:
其他好文 时间:
2020-03-29 21:09:31
阅读次数:
261
k NN k NN 是一种基本分类和回归方法。对新实例进行分类时,通过已经训练的数据求出 k 个最近实例,通过多数表决进行分类。故 k 邻近算法具有不显式的学习过程。 三个基本要素:k 值选择,距离度量,分类决策规则。 1. k 近邻算法 原理:给定一个训练集,对于新输入的实例,在训练集中找到与其相 ...
分类:
编程语言 时间:
2020-03-28 10:33:21
阅读次数:
85
一、引入 最开始知道生成模型和判别模型,是在李航的统计学习方法里,当时的理解是:生成模型,就是同时考虑了X和Y的随机性,也就是说二者都是随机变量;判别模型,就是只考虑了Y的随机性,而X并不是个随机变量,即使X存在于条件中,但是并没有p(x)这种说法。当时同时也知道了,朴素贝叶斯和隐马尔可夫都是生成模 ...
分类:
其他好文 时间:
2020-03-27 00:47:38
阅读次数:
176
梳理了一下统计学习三大要素,以及泛化误差上界定理,简单摘抄了一些证明。这篇理解部分比较多,由于需要一些泛函知识,所以并没有深入的去探索。 ...
分类:
其他好文 时间:
2020-03-25 23:09:41
阅读次数:
69
直方图和条图的区别 条型图,用于描述分类型数据较多。 直方图,用于描述数值型数据的分组。 直方图:图上的长方形之间无间隔, 每个长方形的面积和频数成比例。 ??: 画图时,边界线是199和200的平均数。但最终取决于舍入的方法。 折线图:体现趋势 体现一种数值型类型数据的趋势,有预测功效 在一张图可 ...
分类:
其他好文 时间:
2020-03-20 15:39:03
阅读次数:
75
这一篇介绍一些描述性统计的基本情况。 数据处理是描述性统计的第一步,对于搜集的数据,首先应先排序,将其按照一定的顺序整理。操作完成后要进行分组,以被研究事物的本质属性进行分组,分组的标准要明确,不能出现数据的交叉和重叠。 一、次数分布概况 次数分布一般是初步整理好一组数据后,将同一组或同一类观测值的 ...
分类:
编程语言 时间:
2020-03-20 12:44:31
阅读次数:
72
简介 统计学习,或者说机器学习的方法主要由监督学习、无监督学习和强化学习组成(它们是并列的,都属于统计学习方法)。 统计学习方法要素 1、假设数据独立同分布。(同数据源的不同样本之间相互独立) 2*、假设要学习的模型属于某个函数的集合,称为假设空间。(你确定了这个函数的样式,就是假设空间,但是函数里 ...
分类:
其他好文 时间:
2020-03-18 20:20:51
阅读次数:
103
支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上。 置信风险: 分类器对 未知样本进行分类,得到的误差。经验风险: 训练好的分类器,对训练样本重新分类得到的误差。即样本误差结构风险:置信风险 + 经验风险结构风险最小化就是为了防止过拟合而提出来的策略,贝叶斯估计中最大后验概率 ...
分类:
其他好文 时间:
2020-03-14 11:12:47
阅读次数:
109