前面我们介绍了简单的集群配置实例。在简单实例中,虽然MongoDB auto-Sharding解决了海量存储问题,和动态扩容问题,但是离我们在真实环境下面所需要的高可靠性和高可用性还有一定的距离。下面我们就介绍一个接近实际的解决方案:Shard:使用Replica Sets,来确保数据的可靠性。通过...
分类:
数据库 时间:
2014-08-15 10:39:28
阅读次数:
302
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
这里我主要讲述我测试flume failover(容错)和load balance(负载均衡)的几个场景以及注意的点。...
分类:
其他好文 时间:
2014-08-14 16:48:08
阅读次数:
578
互联网的内容主流,已经出现从文字转向图片的趋势,这标志着互联网已经进入“读图时代”。在“读图时代”的大背景下,图像中的海量非结构化数据的挖掘成为价值潜力的集聚地,如何挖掘其中隐藏的用户“密码”,成为大数据“落地”遇到的一大挑战。 图片大数据挖掘,主要目标是从中提取出图片的自身特征,包括语义、质...
分类:
其他好文 时间:
2014-08-14 16:37:58
阅读次数:
242
1.Dutch courage 因为英语与荷兰之间的恩恩怨怨,积重难反,有渊源极深,而荷兰被称为“海盗之国”,海盗是做事鲁莽的,所以就用这个词语来表示“酒后之勇”。2.have a hollow leg 千杯不醉,喝酒海量Eg.The best man has a hollow leg. He dr...
分类:
其他好文 时间:
2014-08-14 13:32:58
阅读次数:
218
希尔算法简介 常见排序算法一般按平均时间复杂度分为两类:O(n^2):冒泡排序、选择排序、插入排序O(nlogn):归并排序、快速排序、堆排序简单排序时间复杂度一般为O(n^2),如...
分类:
编程语言 时间:
2014-08-13 21:57:07
阅读次数:
271
自我学习就是把稀疏自编码器与Softmax回归分类器串联起来。
稀疏编码器是用来无监督学习的,使用无标签数据。
Softmax回归分类器是有监督学习,使用标签数据。
实际生活中,我们能轻松获得大量无标签数据(如从网上随机下载海量图片)
难以获得大量有标签数据(有标签的数据库通常不会太大,而且很贵)
如果我们手头上只有少量标签数据,但是有大量的无标签数据,这是就可以采用自我...
分类:
其他好文 时间:
2014-08-13 13:03:36
阅读次数:
493
代码实现 #include "stdafx.h"#include #include using namespace std;int a[1...
分类:
编程语言 时间:
2014-08-12 21:39:44
阅读次数:
249
在面对大数据量的排序时(100W以上量级数据),通常用以下三种的排序方法:快速排序、归并排序,堆排序。在这个量级上,其他冒泡,选择,插入排序等已经根本没法看了,效率极低,跟前面三种排序差了千百倍,因此不作比较。这三种排序的平均时间复杂度均为O(nlogn),快速排序,归并排序在面对基本有序序列排序时...
分类:
编程语言 时间:
2014-08-12 21:36:44
阅读次数:
286
代码实现 #include "stdafx.h"#include #include using namespac...
分类:
编程语言 时间:
2014-08-12 21:34:54
阅读次数:
217
Hive 运行架构
由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;
构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:
使用HQL作为查询接口;
使用HDFS作为存储底层;...
分类:
其他好文 时间:
2014-08-12 19:05:44
阅读次数:
314