13聚类分析和判别分析 聚类分析 什么是聚类分析? 聚类:数据对象的集合 在同一集群内彼此相似 与其他集群中的对象不同 聚集分析 将一组数据对象分组为群集,即为分组 聚类是无监督的分类:没有预定义的类。 典型应用 作为了解数据分布的独立工具。 作为其它算法的预处理步骤 什么是好的聚类? 良好的聚类方 ...
分类:
其他好文 时间:
2019-12-11 21:06:41
阅读次数:
97
1.EM算法概念 EM 算法,全称 Expectation Maximization Algorithm。期望最大算法是一种迭代算法,用于含有隐变量(Hidden Variable)的概率参数模型的最大似然估计或极大后验概率估计。 1.1 问题描述 我们假设学校男生和女生分别服从两种不同的正态分布, ...
分类:
编程语言 时间:
2019-12-09 17:00:50
阅读次数:
86
投资机构或电商企业等积累的客户交易数据繁杂。需要根据用户的以往消费记录分析出不同用户群体的特征与价值,再针对不同群体提供不同的营销策略。 用户分析指标 根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标 R-最近一次消费(Rec ...
分类:
编程语言 时间:
2019-12-07 21:03:21
阅读次数:
94
面向对象三大特性:封装、继承和多态。 程序追求的是“高内聚、低耦合”。高内聚:类的内部数据操作细节自己完成,不允许外部干涉; 低耦合:仅暴露小量的方法给外部使用。 封装:可以看作是数据的隐藏;即属性私有,一般通过操作接口来访问,禁止直接访问一个对象中的数据的实际表示。有get或set 例:有两个Ja ...
分类:
其他好文 时间:
2019-12-07 19:42:27
阅读次数:
90
一、聚类(无监督)的目标 使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。 二、层次聚类 层次聚类算法实际上分为两类:自上而下或自下而上。自下而上的算法在一开始就将每个数据点视为一个单一的聚类,然后依次合并(或聚集)类,直到所有类合并成一个包含所有数据点的单一聚类。因此,自下而上的 ...
分类:
编程语言 时间:
2019-12-06 19:33:53
阅读次数:
174
11 K Means 原理及案例 非监督学习 1. unsupervised learning (非监督学习) ,只有特征值,没有目标值 2. 聚类: 主要方法 k means (K 需要分成的类别数) K Means步骤 1. 随机设置K个特征空间内的点作为初始的聚类中心 (红,绿,蓝) k=3 ...
分类:
其他好文 时间:
2019-12-04 01:42:52
阅读次数:
237
聚类(Cluster analysis ) 定义:根据数据的特征找出数据间的相似性,将相似的数据分成一个类。 作用:作为一个独立的工具对数据分布进行分析 可以作为其他算法(如分类等)的预处理步骤 Pattern Recognition Spatial Data Analysis Image Proc ...
分类:
其他好文 时间:
2019-12-03 14:17:41
阅读次数:
133
K-Means方法是MacQueen1967年提出的。给定一个数据集合X和一个整数K(?n),K-Means方法是将X分成K个聚类并使得在每个聚类中所有值与该聚类中心距离的总和最小。 K-Means聚类方法分为以下几步: [1] 给K个cluster选择最初的中心点,称为K个Means。 [2] 计 ...
分类:
其他好文 时间:
2019-12-02 19:22:06
阅读次数:
111
前言 关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来。这个可以追溯到文献检索初期,关键词是为了文献标引工作,从报告、论文中选取出来用以表示全文主题内容信息的单词或术语,在现在的报告和论文中,我们依然可以看到关键词这一项。因此,关键词在文献检索、自动文摘、文本聚类/分类等方面有着重要 ...
分类:
其他好文 时间:
2019-12-02 17:25:30
阅读次数:
103
目录 简述 K-means聚类 密度聚类 层次聚类 一、简述 聚类算法是常见的无监督学习(无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类)。 在监督学习中我们常根据模型的误差来衡量模型的好坏,通过优化损失函数来改善模型。而在聚类算法中是怎么来度量模型的好坏呢?聚类算法模型的性 ...
分类:
编程语言 时间:
2019-12-02 14:04:05
阅读次数:
101