一、问题 主方向的概念是什么?为什么降低维度的方法是使方差最大化? 假设某两个特征之间成线性关系,在二维平面上的表示就是数据点呈线性分布,那么可以通过将数据在主方向上进行投影,得到一个一维的数据,这个一维的数据保留了原始数据大部分的信息. 两个特征之间成线性关系,但是由于一些噪声的影响,所以数据分布 ...
分类:
其他好文 时间:
2018-04-03 14:37:44
阅读次数:
153
一、Kafka回顾 1、AMQP协议 消息队列中消息交互规范,多数分布式消息中间件基于该协议进行消息传输 2、Broker 对于kafka,将生产者发送的消息,动态的添加到磁盘,一个Broker等同于一个kafka应用实例,用于存放消息队列 3、主题:分区:消息 一个分区(Patition)等同于一 ...
分类:
其他好文 时间:
2018-04-03 14:34:55
阅读次数:
161
一、高斯混合模型 软分类算法,即对每一个样本,计算其属于各个分布的概率,概率值最大的就是这个样本所属的分类。 对于训练样本的分布,看成为多个高斯分布加权得到的。其中每个高斯分布即为某一特定的类。 高斯混合模型和高斯判别分析非常像,唯一的区别就是在高斯混合模型中,每个样本所属的类别标签是未知的。 为了 ...
分类:
其他好文 时间:
2018-04-03 14:32:17
阅读次数:
148
一、经验风险最小化 1、有限假设类情形 对于Chernoff bound 不等式,最直观的解释就是利用高斯分布的图象。而且这个结论和中心极限定律没有关系,当m为任意值时Chernoff bound均成立,但是中心极限定律不一定成立。 随着 模型复杂度 (如多项式的次数、假设类的大小等)的增长, 训练 ...
分类:
其他好文 时间:
2018-04-03 14:29:26
阅读次数:
173
一、协方差矩阵 协方差矩阵为对称矩阵。 在高斯分布中,方差越大,数据分布越分散,方差越小发,数据分布越集中。 在协方差矩阵中,假设矩阵为二维,若第二维的方差大于第一维的方差,则在图像上的体现就是:高斯分布呈现一个椭圆形,且主轴对应的就是方差大的第二维度。简而言之,若对角线元素相等,则高斯分布的图形是 ...
分类:
其他好文 时间:
2018-04-03 14:27:28
阅读次数:
171
概述 zookeeper是一个高可用的分布式数据管理与协调框架,基于ZAB算法实现,主要解决分布式一致性问题。 https://www.cnblogs.com/felixzh/p/5869212.html 核心概念 节点 zk的命名空间是由一系列数据节点组成的,节点上可以包含数据。 类型 节点类型分 ...
分类:
其他好文 时间:
2018-04-03 12:52:57
阅读次数:
132
一、疑问 二、知识点 1. 白化 ? 白化操作的输入是特征基准上的数据,然后对每个维度除以其特征值来对数值范围进行归一化。该变换的几何解释是:如果数据服从多变量的高斯分布,那么经过白化后,数据的分布将会是一个均值为零,且协方差相等的矩阵。该操作的代码如下: ? 警告:夸大的噪声。注意分母中添加了1e ...
分类:
其他好文 时间:
2018-04-03 12:50:40
阅读次数:
187
前言: ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 ZooKeeper的目标就是封装好复杂易 ...
分类:
系统相关 时间:
2018-04-03 12:47:22
阅读次数:
1058
在看代码的时候遇到一个snowflake算法,查了一下发现是Twitter的一个分布式ID生成算法,能够在分布式环境中生成一个全局唯一的ID,然后上网找了一些业界的做法,目前看到了携程和美团的方案,做一下笔记。背景1在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。如在美团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中,数据日渐增长,对数据分库分表后需要有一个唯一ID来标识一条数据
分类:
其他好文 时间:
2018-04-03 11:28:13
阅读次数:
163
作为区块链社区的活跃成员,近日,国内知名黑客安全组织,东方联盟创始人郭盛华表示: 我注意到目前正在构建的许多应用程序(使用区块链技术)可能更适合使用传统分布式架构。虽然肯定有实例要求区块链的好处,但大多数时候你根本不需要它。以下是我们分析导致这种情况的几个原因。 1.成本 在像以太坊这样的区块链实施 ...
分类:
其他好文 时间:
2018-04-03 10:56:32
阅读次数:
146