一、问题 主方向的概念是什么?为什么降低维度的方法是使方差最大化? 假设某两个特征之间成线性关系,在二维平面上的表示就是数据点呈线性分布,那么可以通过将数据在主方向上进行投影,得到一个一维的数据,这个一维的数据保留了原始数据大部分的信息. 两个特征之间成线性关系,但是由于一些噪声的影响,所以数据分布 ...
分类:
其他好文 时间:
2018-04-03 14:37:44
阅读次数:
153
一、协方差矩阵 协方差矩阵为对称矩阵。 在高斯分布中,方差越大,数据分布越分散,方差越小发,数据分布越集中。 在协方差矩阵中,假设矩阵为二维,若第二维的方差大于第一维的方差,则在图像上的体现就是:高斯分布呈现一个椭圆形,且主轴对应的就是方差大的第二维度。简而言之,若对角线元素相等,则高斯分布的图形是 ...
分类:
其他好文 时间:
2018-04-03 14:27:28
阅读次数:
171
在看代码的时候遇到一个snowflake算法,查了一下发现是Twitter的一个分布式ID生成算法,能够在分布式环境中生成一个全局唯一的ID,然后上网找了一些业界的做法,目前看到了携程和美团的方案,做一下笔记。背景1在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。如在美团点评的金融、支付、餐饮、酒店、猫眼电影等产品的系统中,数据日渐增长,对数据分库分表后需要有一个唯一ID来标识一条数据
分类:
其他好文 时间:
2018-04-03 11:28:13
阅读次数:
163
分布式爬虫系统设计、实现与实战:爬取京东、苏宁易购全网手机商品数据+MySQL、HBase存储
分类:
移动开发 时间:
2018-04-02 21:14:21
阅读次数:
284
MapReduce概述MapReduce源自Google的MapReduce论文,论文发表于2004年12月。HadoopMapReduce可以说是GoogleMapReduce的一个开源实现。MapReduce优点在于可以将海量的数据进行离线处理,并且MapReduce也易于开发,因为MapReduce框架帮我们封装好了分布式计算的开发。而且对硬件设施要求不高,可以运行在廉价的机器上。MapRe
分类:
其他好文 时间:
2018-03-31 23:07:58
阅读次数:
262
数组和链表组合成的链表散列结构,通过hash算法,尽量将数组中的数据分布均匀,如果hashcode相同再比较equals方法,如果equals方法返回false,那么就将数据以链表的形式存储在数组的对应位置,并将之前在该位置的数据往链表的后面移动,并记录一个next属性,来指示后移的那个数据。注意数 ...
分类:
其他好文 时间:
2018-03-30 00:14:14
阅读次数:
184
在本教程中,您将学习Oracle INNER JOIN子句以从表中检索具有其他表的匹配行的行。 Oracle INNER JOIN语法简介 在关系数据库中,数据分布在许多相关的表中。例如,在样本数据库中,销售订单数据主要存储在orders和order_items表中。参考以下ER图结构 - orde ...
分类:
数据库 时间:
2018-03-19 16:41:19
阅读次数:
240
#-*- coding: utf-8 -*- ''' 逻辑回归参数: penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高... ...
分类:
其他好文 时间:
2018-03-10 20:32:28
阅读次数:
277
作者 Hongyi Zhang 张宏毅 @ 张宏毅知乎 北大->MIT 论文所属FAIR Abstract 深度神经网络有些不好的行为:强记忆和对对抗样本敏感 Christian Szegedy等人在ICLR2014发表的论文中,他们提出了对抗样本(Adversarial examples)的概念, ...
分类:
其他好文 时间:
2018-03-08 02:55:23
阅读次数:
756
文件系统的底层设备肯定是需要增加和删除的。增加磁盘/分区现在的状态现在来添加设备这个时候需要对文件系统进行重新数据分布。默认是对所有数据进行重新分布这里做的仅仅是对数据的重新分布之前的可用空间是3G,现在的可用空间时1.5G现在我们来删除底层硬盘/分区将数据以raid0的方式重新分布可用空间由1变2.
分类:
系统相关 时间:
2018-03-04 14:38:05
阅读次数:
203