码迷,mamicode.com
首页 >  
搜索关键字:数据挖掘    ( 2538个结果
R语言与数据分析之三:分类算法1
分类算法与我们的生活息息相关,也是目前数据挖掘中应用最为广泛的算法,如:已知系列的温度、湿度的序列和历史的是否下雨的统计,我们需要利用历史的数据作为学习集来判断明天是否下雨;又如银行信用卡诈骗判别。 分类问题都有一个学习集,根据学习集构造判别函数,最后根据判别函数计算我们所需要判别的个体属于哪一类的。 常见的分类模型与算法 传统方法 1、线性判别法;2、距离判别法;3、贝叶斯分类器; 现...
分类:编程语言   时间:2014-12-08 10:44:59    阅读次数:409
数据挖掘视频教程下载
数据挖掘原理与实战下载地址:链接:http://pan.baidu.com/s/1qWFNuPm密码:oa4n网盘失效的话,请加QQ:3113533060第1周数据分析基础要点数据分析流程、方法论(PEST、5W2H、逻辑树)、基础数据分析方法、数据分析师能力层级、数据的度量、探索、抽样、原理及实际操作,结合SPSS..
分类:其他好文   时间:2014-12-07 11:23:04    阅读次数:197
Excel自带数据分析工具
Excel中自带了数据分析工具,可以用于基础的数据统计和分析功能,只要在插件中进行选择即可,以Excel2013为例 1、文件-->选项--->加载项 2、管理下拉框中选择Excel加载项,点击“转到” 3、勾选分析工具库、规划求解加载(Solver)项即可 4、在“数据”选项卡中会出现刚才加载的数据分析插件...
分类:其他好文   时间:2014-12-06 22:52:22    阅读次数:370
mahout入门指南之mahout单机版推荐算法
mahout入门指南之mahout单机版推荐算法   鄙人最近在研究mahout,网上找了一些入门资料来看,发现都整理的比较乱。折腾了一番,终于搞清楚了。为了让新手们较快入门,决定总结分享一下,写此入门指南。   mahout是什么? mahout是一个机器学习库,里面实现了一些算法,比如推荐算法,聚类算法。 实现方式有单机内存版,也有分布式(hadoop和spark)。...
分类:编程语言   时间:2014-12-06 15:26:15    阅读次数:368
数据挖掘概述
最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:其他好文   时间:2014-12-05 17:27:05    阅读次数:151
etl数据提取、转换和加载
ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL一词较常出现在数据仓库,但其对象并不局限于数据仓库。ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系...
分类:其他好文   时间:2014-12-05 14:09:04    阅读次数:197
数据预处理
数据预处理数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量...
分类:其他好文   时间:2014-12-05 10:45:34    阅读次数:309
2014互联网职场薪酬报告
那么问题来了……你的薪水及格了吗?在应届生中,薪资水平最高的职位依次有:架构师、mac、hadoop、技术经理以及算法。最低的有vb、自动化测试、广告算法。普通职位中,db2的工资水平最高,平均月薪28500元,接下来是u3d、搜索算法、推荐系统等职位。而工作经验在3-5年中的职位,数据挖掘、广告算...
分类:其他好文   时间:2014-12-05 10:44:10    阅读次数:201
理解谱聚类
前面介绍过K-means聚类方法,这个方法简单易懂,主要在于如何定义距离计算公式(一般使用欧氏距离),如何选择K值,这两个问题。这次我们介绍谱聚类,它是K-means的升级版。我们计划从这样几个方面介绍谱聚类:K-measn聚类有什么缺点?谱聚类的基本思想,以及谱聚类的算法步骤。...
分类:其他好文   时间:2014-12-04 15:48:14    阅读次数:243
DBscan算法C++实现
#include #define dimense 10 //10维数据 #define N 5005 #define MAX 0xffffff #define clr(a) memset(a,0,sizeof(a)) using namespace std; double radius=60; int min_num=400; int num=5000;//数据量 int k; int now=0...
分类:数据库   时间:2014-12-04 08:49:50    阅读次数:325
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!