分类算法与我们的生活息息相关,也是目前数据挖掘中应用最为广泛的算法,如:已知系列的温度、湿度的序列和历史的是否下雨的统计,我们需要利用历史的数据作为学习集来判断明天是否下雨;又如银行信用卡诈骗判别。
分类问题都有一个学习集,根据学习集构造判别函数,最后根据判别函数计算我们所需要判别的个体属于哪一类的。
常见的分类模型与算法
传统方法
1、线性判别法;2、距离判别法;3、贝叶斯分类器;
现...
分类:
编程语言 时间:
2014-12-08 10:44:59
阅读次数:
409
数据挖掘原理与实战下载地址:链接:http://pan.baidu.com/s/1qWFNuPm密码:oa4n网盘失效的话,请加QQ:3113533060第1周数据分析基础要点数据分析流程、方法论(PEST、5W2H、逻辑树)、基础数据分析方法、数据分析师能力层级、数据的度量、探索、抽样、原理及实际操作,结合SPSS..
分类:
其他好文 时间:
2014-12-07 11:23:04
阅读次数:
197
Excel中自带了数据分析工具,可以用于基础的数据统计和分析功能,只要在插件中进行选择即可,以Excel2013为例
1、文件-->选项--->加载项
2、管理下拉框中选择Excel加载项,点击“转到”
3、勾选分析工具库、规划求解加载(Solver)项即可
4、在“数据”选项卡中会出现刚才加载的数据分析插件...
分类:
其他好文 时间:
2014-12-06 22:52:22
阅读次数:
370
mahout入门指南之mahout单机版推荐算法
鄙人最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱。折腾了一番,终于搞清楚了。为了让新手们较快入门,决定总结分享一下,写此入门指南。
mahout是什么?
mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法。
实现方式有单机内存版,也有分布式(hadoop和spark)。...
分类:
编程语言 时间:
2014-12-06 15:26:15
阅读次数:
368
最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:
其他好文 时间:
2014-12-05 17:27:05
阅读次数:
151
ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL一词较常出现在数据仓库,但其对象并不局限于数据仓库。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系...
分类:
其他好文 时间:
2014-12-05 14:09:04
阅读次数:
197
数据预处理数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量...
分类:
其他好文 时间:
2014-12-05 10:45:34
阅读次数:
309
那么问题来了……你的薪水及格了吗?在应届生中,薪资水平最高的职位依次有:架构师、mac、hadoop、技术经理以及算法。最低的有vb、自动化测试、广告算法。普通职位中,db2的工资水平最高,平均月薪28500元,接下来是u3d、搜索算法、推荐系统等职位。而工作经验在3-5年中的职位,数据挖掘、广告算...
分类:
其他好文 时间:
2014-12-05 10:44:10
阅读次数:
201
前面介绍过K-means聚类方法,这个方法简单易懂,主要在于如何定义距离计算公式(一般使用欧氏距离),如何选择K值,这两个问题。这次我们介绍谱聚类,它是K-means的升级版。我们计划从这样几个方面介绍谱聚类:K-measn聚类有什么缺点?谱聚类的基本思想,以及谱聚类的算法步骤。...
分类:
其他好文 时间:
2014-12-04 15:48:14
阅读次数:
243
#include
#define dimense 10
//10维数据
#define N 5005
#define MAX 0xffffff
#define clr(a) memset(a,0,sizeof(a))
using namespace std;
double radius=60;
int min_num=400;
int num=5000;//数据量
int k;
int now=0...
分类:
数据库 时间:
2014-12-04 08:49:50
阅读次数:
325