码迷,mamicode.com
首页 > 其他好文 > 详细

数据科学

时间:2014-05-27 01:39:25      阅读:240      评论:0      收藏:0      [点我收藏+]

标签:c   class   blog   tar   http   a   

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢! 

 

数据科学最近成为计算机的热门领域。数据科学是利用计算机的运算能力对数据进行处理,从数据中提取信息,进而形成“知识”。它已经影响了计算机视觉、信号处理、自然语言识别等计算机分支。数据科学已经在IT、金融、医学、自动驾驶等领域得到广泛使用。(如果你熟知中情局的棱镜泄密事件,你会发现数据科学已经在情报领域广泛使用。)

bubuko.com,布布扣

 

在这系列文章中,我希望能完成从概率论,统计,到机器学习的整个数据分析的链条。传统意义上的数据处理是用统计方法实现的,而概率论是统计的基础。随着计算机处理能力的增强,一些需要大量运算的数据分析方法得到快速发展。机器学习实际上是一个混合体,包括一些在计算机领域中发展的算法,也包括一些传统统计中已经存在,但受限于计算能力的统计方法。另一方面,从数据中提炼知识是机器学习的主要目的,这与统计推断密切相关。因此,从传统的概率和统计出发,更容易理解机器学习的内涵。

当然,这样做的困难之处是要覆盖许多内容。严格的叙述有时会显得比较无聊。我会尽力引入实用的编程例子,以便能形成更好的触觉。编程工具会以Python语言为主,配以第三方的包,如NumpyScipyMatplotlibscikit-learn。统计和机器学习同样可以在其他语言中实现,比如Matlab和R语言。如果你熟悉相应的工具,不难写出类似功能的代码。

 

概率论

计数

概率公理

条件概率

随机变量

离散分布

连续分布

联合分布

随机变量的函数

期望

方差与标准差

协方差与相关系数

矩与矩生成函数

中心极限定律

数学与编程:“概率论”总结

 

统计基础

统计Go, Go, Go

数据描述

参数估计

区间估计

假设检验

线性回归

ANOVA

无参估计

贝叶斯方法

 

多变量数据

线性代数基础

PCA分析

 

时序分析

信号与频谱

 

机器学习

监督学习

无监督学习

 

绘图工具

1) matplotlib:

matplotlib简介

matplotlib Basemap简介

matplotlib核心剖析 

 

参考书籍

豆列

 

数据科学,布布扣,bubuko.com

数据科学

标签:c   class   blog   tar   http   a   

原文地址:http://www.cnblogs.com/lanye/p/3736171.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!