08 决策树与随机森林 决策树之信息论基础 认识决策树 1. 来源: 决策树的思想来源非常朴素,程序设计中的条件分支结构就是if then 结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。 2. 举例:是否见相亲对象 信息的度量和作用 1. 克劳德 .艾尔伍德 .香农:信息论创始人,密 ...
分类:
其他好文 时间:
2019-11-25 23:55:16
阅读次数:
89
MATLAB聚类有效性评价指标(外部 成对度量) 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ 更多内容,请看:MATLAB: Clustering Algorithms, MATLAB聚类有效性评价指标(外部) 前提:数据的真实标签已知!TP:真阳 ...
分类:
其他好文 时间:
2019-11-25 11:46:35
阅读次数:
152
聚类算法 概述 无监督问题 手中无标签 聚类 将相似的东西分到一组 难点 如何 评估, 如何 调参 基本概念 要得到的簇的个数 - 需要指定 K 值 质心 - 均值, 即向量各维度取平均 距离的度量 - 常用 欧几里得距离 和 余弦线相似度 ( 先标准化 ) 优化目标 - 需求每个簇中的点, 到质心 ...
分类:
编程语言 时间:
2019-11-25 09:42:34
阅读次数:
54
k NN是一种基本分类回归方法。k近邻法输出为实例类别,可以取多类 k NN假定给定一个训练集,其中的实例类别已定。分类时,对于新实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式预测。因此,k NN不具有显式的学习过程 $k$的选择、距离度量及分类决策规则(如多数表决)是k NN的三个基本 ...
分类:
其他好文 时间:
2019-11-24 15:59:39
阅读次数:
53
基本思想:通过迭代寻找K个簇的一种划分方法,使得聚类结果对应的代价函数最小。特别地,代价函数可以定义为各个样本距离所属聚类中心的误差平方和 $$J(c, \mu) = \sum \limits_{i=1}{M}||x_i \mu_{c_i}||^2?$$ 具体步骤 数据预处理,如归一化、离群点处理等 ...
分类:
其他好文 时间:
2019-11-24 15:51:17
阅读次数:
70
随着开发周期的推移,项目会不断变大,切分出的服务也会越来越多,这时一个个的微服务构成了错综复杂的系统。对于各个微服务系统的健康状态、会话数量、并发数、服务资源、延迟等度量信息的收集就成为了一个挑战。Spring Boot Admin 应运而生,它正式基于这些需求开发出的一套功能强大的监控管理系统。 ...
分类:
编程语言 时间:
2019-11-24 00:02:59
阅读次数:
102
凡事应该尽量简单,直到不能再简单为止。想明白、完全理解以下概念是做数仓工程师的必备条件之一。 一、用于度量的事实表 1.应该尽量将来源于同一个业务过程的底层度量结果存储于一个维度模型中。 2.事实表中的每一行对应一个度量事件。每行中的数据是一个特定级别的细节数据,称为粒度。 物理世界的每一个度量事件 ...
分类:
其他好文 时间:
2019-11-23 19:54:13
阅读次数:
58
DNA分类 时限:1000 MS 内存限制:10000 K 提交材料共计: 114762 接受: 45919 描述 在一个序列中,“未排序”的一种衡量标准是,彼此之间出现无序的一对条目的数量。例如,在字母序列“DAABEC”中,这一度量为5,因为D在右边大于4个字母,而E在右边大于一个字母。这个度量 ...
分类:
其他好文 时间:
2019-11-23 18:32:55
阅读次数:
119
通用技能 业务相关 业务需求知识 业务管理流程 行业现状和发展方向 管理相关 时间管理(四象限法则) 重要且紧急 重要不紧急 紧急不重要 不紧急不重要 目标管理(SMART法则) S(Specific):目标明确 M(Measurable):目标可度量 A(Attainable):目标可实现性 R( ...
分类:
其他好文 时间:
2019-11-22 19:25:37
阅读次数:
89
相关系数度量指的是两个不同事件彼此之间的相互影响程度;而自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象的讲就是度量自己过去的行为对自己现在的影响。 自相关,也称 序列相关。是一个信号于其自身在不同时间点的互相关。非正式地来说,它就是两次观察之间的相似度对它们之间的时间差的函数。它是找出 ...
分类:
其他好文 时间:
2019-11-22 13:37:27
阅读次数:
94