统计学的基本概念(原文链接) 一、 有n个样本的集合: X = {X1,X2,...,Xn} 均值: 标准差: 方差: 有两个数据集,数据集1,X = [0,8,12,20];数据集2,Y = [8,9,11,12]。两者的均值一样都为10。数据集1的标准差8.3,数据集2的标准差为1.8,因为后者 ...
分类:
其他好文 时间:
2020-06-03 20:12:38
阅读次数:
65
本篇文章将从贝叶斯公式出发,探究贝叶斯到底是啥,以及其在认知层面的巨大作用。不过据说每出现 1 个公式,文章阅读将下降 1/3。 华为大佬说:人工智能就是统计学。在我眼中,贝叶斯公式就是统计学走向机器学习的起点。 贝叶斯公式 贝叶斯定理(Bayes’s Rule):如果有k个相互独立事件 A1,A2 ...
分类:
其他好文 时间:
2020-06-03 20:08:55
阅读次数:
57
专有名词 机器学习 (machine learning) 预测分析 (predictive analytics) 统计学习 (statistical learning) 监督学习 (supervised learning) 无监督学习 (unsupervised learning) 样本 (samp ...
分类:
编程语言 时间:
2020-05-30 21:59:46
阅读次数:
75
为什么Python这么火 1. 难度 (1) 如果有C和Java的语言基础,那么上手Python是比较快速的,主要是学习一些Python特有的关键字和Python特有的语法 (2) Python上手快,并不说Python简单,这点要强调 2. 实用性 (1) 能用一行代码,何必用十行呢? (2) 我 ...
分类:
其他好文 时间:
2020-05-29 09:50:30
阅读次数:
81
第十二章 如何锻炼数据科学技能 (资深数据科学家 & 创新领袖) 数据科学是一个结合了应用数学,计算机科学,商业资讯和新产品研发的综合职位。统计学,机器学习,sql,hadoop,java(数据科学家应该像瑞士军刀一样多才多艺,能够在诸多领域多才多艺,并且在一两个领域内拥有深邃的真知灼见。)商业资讯 ...
分类:
其他好文 时间:
2020-05-24 09:17:20
阅读次数:
65
[TOC] 我有一点点机器学习的基础,这一章阅读起来还是比较轻松。 1 统计学习 1.1 背景 这里首先要介绍一下 贝叶斯派 和 频率派 。举个栗子:一个病毒检测试剂,如果受检者为阳性,误检率为1%,如果受检者为阴性,误检率为2%;若人群中某个人的检测结果为阳性,则此人携带病毒的概率是多少。概率派观 ...
分类:
其他好文 时间:
2020-05-23 10:03:51
阅读次数:
86
模型估计与模型选择 模型估计 当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就成为了学习方法评估的标准。测试误误差反映了学习方法对未知的测试数据集的预测能力,又被称为泛化能力。 过拟合:一味的追求提高训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,但会造成过拟合。为了防止过 ...
分类:
其他好文 时间:
2020-05-23 09:56:42
阅读次数:
46
以少见多,以小见大,以样本见总体。提取样本信息,推荐总体信息。 必然现象:可预言结果,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生/必然不发生,称为必然现象inevitable phenomena /确定性现象 definite phenomena。 随机现象:事前不可预言其结 ...
分类:
其他好文 时间:
2020-05-18 22:22:54
阅读次数:
53
一、数学统计函数 概率论是统计学的基础,R有许多用于处理概率,概率分布以及随机变量的函数。R对每一个概率分布都有一个简称,这个名称用于识别与分布相联系的函数。这部分涉及到很多统计学基础的理论知识,比如随机试验,样本空间,对立与互斥,随机事件与必然事件,概率密度,概率分布等。 1.四种基本函数 后缀 ...
分类:
编程语言 时间:
2020-05-16 20:23:46
阅读次数:
213
一、时间序列对比分析: 1,时间序列及其分类: 1)同一现象在不同时间上的相继观察值排列而成的数列; 2)时间序列:绝对数序列-时期序列(在一段时间内),时点序列(某一瞬间时间点),相对数序列,平均数序列; 3)原则:一致性,时间长短/总体范围/指标内容/计算方法和口径; 2,时间序列的水平分析: ...
分类:
其他好文 时间:
2020-05-16 19:00:40
阅读次数:
60