前言: 谈到大数据分析工具,可能很多人都还不了解什么是大数据分析工具。至少在大多数行业里少提到大数据分析工具、大数据分析、大数据可视化这个说法,可以说大数据技术架构,大数据分析软件,也可能说数据挖掘软件。这里提到的大数据分析工具是指各种大数据分析,大数据挖掘软件。今天我们来看看大数据分析工具到...
分类:
其他好文 时间:
2014-09-25 14:23:49
阅读次数:
394
在回顾了VC分析之后,本节课重点介绍了另一个理解泛化的理论:偏差与方差,并通过学习曲线的运用比较了VC分析和偏偏差方差权衡的不同用途....
分类:
其他好文 时间:
2014-09-25 00:59:17
阅读次数:
245
分类决策树算法,其核心算法是ID3算法。目前应用在临床决策、生产制造、文档分析、生物信息学、空间数据建模等领域。算法的输入是带类标的数据,输出是树形的决策规则。...
分类:
其他好文 时间:
2014-09-24 13:42:06
阅读次数:
310
scipy系列库有相当多的依赖,导致安装过程比较痛苦。要不停的去找依赖。
发现一个小日本给出的安装过程:
原载: http://memo.yomukaku.net/entries/jbRkQkq
1. 安装Python
2.7.3 Python
2.7.3のインストール
cd src
wget http://www.python.org/ftp/pytho...
分类:
编程语言 时间:
2014-09-24 13:07:16
阅读次数:
368
分类回归树算法:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。
分类树两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行建树的想法,第二个想法是用验证数据进行剪枝。
CART与C4.5的...
分类:
其他好文 时间:
2014-09-24 12:33:26
阅读次数:
230
1、服务性行业(含终端销售,中间流通)将是公共云计算的大舞台,传统的终端性管理软件将会很难生存;2、制造加工业是云和传统结合的趋势,销售服务云化,生产管理方面保持传统,但会更精细化。3、云计算的出现对IT就业的影响,两个趋势:高端化趋势,底层化趋势,高端化趋势是指对程序员的要求会提高,数据挖掘和大数据处理方面需求会更大,但人数需求会减少,这是软件复制特性体现。企业生产自动化和精细化,以及云计算下的...
分类:
其他好文 时间:
2014-09-24 11:46:46
阅读次数:
284
注:凭记忆写的,可能不全,也不一定正确。一. 简答题1. new 和 malloc 的区别。2. hash冲突是指什么?怎么解决?给两种方法,写出过程和优缺点。3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,则至少需要几次?二. 算法设计题1. 用C/C++写一个归并排序。数据...
分类:
其他好文 时间:
2014-09-20 17:34:59
阅读次数:
187
源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
聚类算法在数据挖掘里面被称之为无监督学习(unsupervised learning),这是与监督学习(supervised learning)相对的。在它们两者之间还一种叫做半监督学习(semi-supervised learning)聚类算法的一般过程分为:1. 读入需预测样本2. 初始化聚类算...
分类:
其他好文 时间:
2014-09-18 20:18:04
阅读次数:
381