数据挖掘需要什么知识

时间：2019-03-18 13:42:04 阅读：163 评论：0 收藏：0 [点我收藏+]

标签：pagerank 归类 mac 分数次数计算评估意思 k近邻

数据挖掘的基本流程

1 商业理解：数据挖掘不是我们的目的，我们的目的是更好的帮助业务，所以第一步我们要从商业的角度理解项目需求，在这个基础上，在对数据挖掘目标进行定义

2 数据理解：尝试收集部分数据，然后对数据进行探索，包括数据描述，数据质量验证等，有助于对收集的数据有个初步认知

3 数据准备：开始收集数据，并对数据进行清洗，数据集成等操作，完成数据挖掘的准备工作

4 模型建立：选择和应用各种数据挖掘模型，并进行优化，以便得到更好的分类结果

5 模型评估：对模型进行评价，并检查构建模型的每个步骤，确认模型是否实现了预定的商业目标

6 上线发布：模型的作用是从数据中找到金矿，获得的知识需要转化为用户可以使用的方式，呈现的形式可以是一份报告，可以试实现了一个复杂可重复的数据挖掘过程，后续监视与维护

数据挖掘十大算法

分类算法：C4.5 ,朴素贝叶斯（Naive Bayes），SVM，KNN，Adaboost

聚类算法： K-Means, EM

关联分析： PageRank

1.C4.5：是决策树的算法，创造性地在决策树构造过程中就进行了剪枝，并且可以处理连续的属性，也对不完整的数据进行处理

2.朴素贝叶斯（naive bayes）: 朴素贝叶斯是给予概率论的原理，它的思想是对于给出的未知无题要进行分类，需要求解在这个未知物体出现的条件下各个类别出现的概率，找最大概率那个分类，数据更新影响思想

3 SVM：中文叫支持向量机：Support Vector Machine,SVM 在训练中简历了一个超平面的分类模型。

4.KNN：也叫K最近邻算法，英文是K-Nearest Neighbor. K近邻就是每个样本都可以用它最接近的K个邻居来戴表，如果一个样本，他的K个最接近的邻居都属于A，那么这个样本也属于A分类

5.Adaboost: 在悬链中简历一个联合分类模型，boost 提升的意思，所以adaboost是个构建分类模型器的提升算法，它可以让多个弱的分类器组成一个强的分类器

6.CART： CART戴表分类和回归树，Classification and Regression Trees. 构建了两棵树，一颗分类树，一个回归树，是一个决策树学习算法

7Apriori 是一个挖掘关联规则（association rules）的算法，通过挖掘频繁顶集（frequent item sets）来解释物品之间的关联关系，被广泛应用于商业挖掘和网络安全领域中，频繁项集是一个指经常出现在一起的物品集合，关联规则按时着两种物品之间可能存在很强的关系

8K-Means： K-Means算法是一个聚类算法，可以这么理解，最终想把物体划分成K类，假设每个类别里面，都有个‘中心点’，即意见领袖，它是这个类别的核心，现在我又一个新点要归类，这个时候就只要计算与K个中心点的距离，距离那个中心点近，就分成那个类别

9.EM: EM算法也叫最大期望算法，是求参数的最大似然估计的一种算法，原理是这样的：假设我们想要评估参数A和参数B，在开始状态下二者都是未知的，并且知道了A的信息就可以得到B的信息，反过来知道了B的也就得到A的，可以考虑首先赋予A某个初值，以此得到B的估值，然后从B的估值出发，重新估计A的取值，这个过程一直持续到收敛未知

10.PageRank: 起源于论文的影响力的计算方式，如果一篇论文被引入次数越多，就代表这篇论文的影响力越强，PageRank被Google创造性地应用到了网页权重的计算中，当一个页面链接的页面越多，说明这个页面的‘参考文献’越多，当这个页面被链入的频率越高，说明这个页面的引用次数越高，基于这个原理，我们可以得到网站的权重划分

数据挖掘中的数学原理

1概率论与数理统计

2 线性代数

3 图论

4最优化方法

数据挖掘需要什么知识

标签：pagerank 归类 mac 分数次数计算评估意思 k近邻

原文地址：https://www.cnblogs.com/pythonzwd/p/10551587.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行