码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘需要什么知识

时间:2019-03-18 13:42:04      阅读:163      评论:0      收藏:0      [点我收藏+]

标签:pagerank   归类   mac   分数   次数   计算   评估   意思   k近邻   

数据挖掘的基本流程

 1 商业理解:数据挖掘不是我们的目的,我们的目的是更好的帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,在对数据挖掘目标进行定义

2 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述,数据质量验证等,有助于对收集的数据有个初步认知

3 数据准备: 开始收集数据,并对数据进行清洗,数据集成等操作,完成数据挖掘的准备工作

4 模型建立: 选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果

5 模型评估: 对模型进行评价,并检查构建模型的每个步骤,确认模型是否实现了预定的商业目标

6 上线发布: 模型的作用是从数据中找到金矿,获得的知识需要转化为用户可以使用的方式,呈现的形式可以是一份报告,可以试实现了一个复杂可重复的数据挖掘过程,后续监视与维护

数据挖掘十大算法

分类算法:C4.5 ,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost

聚类算法: K-Means, EM

关联分析: PageRank

1.C4.5: 是决策树的算法,创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也对不完整的数据进行处理

2.朴素贝叶斯(naive bayes): 朴素贝叶斯是给予概率论的原理,它的思想是对于给出的未知无题要进行分类,需要求解在这个未知物体出现的条件下各个类别出现的概率,找最大概率那个分类,数据更新影响思想

3 SVM:中文叫支持向量机:Support Vector Machine,SVM 在训练中简历了一个超平面的分类模型。

4.KNN: 也叫K最近邻算法,英文是K-Nearest Neighbor.  K近邻就是每个样本都可以用它最接近的K个邻居来戴表,如果一个样本,他的K个最接近的邻居都属于A,那么这个样本也属于A分类

5.Adaboost:  在悬链中简历一个联合分类模型,boost 提升的意思,所以adaboost是个构建分类模型器的提升算法,它可以让多个弱的分类器组成一个强的分类器

6.CART: CART戴表分类和回归树,Classification and Regression Trees.  构建了两棵树,一颗分类树,一个回归树,是一个决策树学习算法

7Apriori 是一个挖掘关联规则(association rules)的算法,通过挖掘频繁顶集(frequent item sets)来解释物品之间的关联关系,被广泛应用于商业挖掘和网络安全领域中,频繁项集是一个指经常出现在一起的物品集合,关联规则按时着两种物品之间可能存在很强的关系

8K-Means: K-Means算法是一个聚类算法, 可以这么理解,最终想把物体划分成K类,假设每个类别里面,都有个‘中心点’,即意见领袖,它是这个类别的核心,现在我又一个新点要归类,这个时候就只要计算与K个中心点的距离,距离那个中心点近,就分成那个类别

9.EM: EM算法也叫最大期望算法,是求参数的最大似然估计的一种算法,原理是这样的:假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B的也就得到A的,可以考虑首先赋予A某个初值,以此得到B的估值,然后从B的估值出发,重新估计A的取值,这个过程一直持续到收敛未知

10.PageRank: 起源于论文的影响力的计算方式,如果一篇论文被引入次数越多,就代表这篇论文的影响力越强,PageRank被Google创造性地应用到了网页权重的计算中,当一个页面链接的页面越多,说明这个页面的‘参考文献’越多,当这个页面被链入的频率越高,说明这个页面的引用次数越高,基于这个原理,我们可以得到网站的权重划分

数据挖掘中的数学原理

1概率论与数理统计

2 线性代数

3 图论

4最优化方法

数据挖掘需要什么知识

标签:pagerank   归类   mac   分数   次数   计算   评估   意思   k近邻   

原文地址:https://www.cnblogs.com/pythonzwd/p/10551587.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!