码迷,mamicode.com
首页 >  
搜索关键字:海量    ( 3302个结果
韩顺平_PHP程序员玩转算法公开课(第一季)01_算法重要性_五子棋算法_汉诺塔_回溯算法_学习笔记_源代码图解_PPT文档整理
文西马龙:http://blog.csdn.net/wenximalong/课程说明:算法是程序的灵魂,为什么有些网站能够在高并发,和海量吞吐情况下依然坚如磐石,大家可能会说: 网站使用了服务器集群技术、数据库读写分离和缓存技术(比如memcahced和redis等),那如果我再深入的问一句,这些优...
分类:编程语言   时间:2014-12-23 10:17:39    阅读次数:233
海量数据处理利器之布隆过滤器
看见了海量数据去重,找到停留时间最长的IP等问题,有博友提到了Bloom Filter,我就查了查,不过首先想到的是大叔,下面就先看看大叔的风采。 一、布隆过滤器概念引入 (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制....
分类:其他好文   时间:2014-12-21 11:28:35    阅读次数:267
SMP、NUMA、MPP体系结构
从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构(SMP:Symmetric Multi-Processor),非一致存储访问结构(NUMA:Non-Uniform Memory Access),以及海量并行处理结构(MPP:Massive Parallel Processi.....
分类:其他好文   时间:2014-12-20 18:08:10    阅读次数:187
大型网站技术架构(二)--架构模式
每一个模式描述了一个在我们周围不断重复发生的问题及该问题解决方案的核心。这样,你就能一次又一次地使用该方案而不必做重复工作。 所谓网站架构模式即为了解决大型网站面临的高并发访问、海量数据、高可靠运行灯一系列问题与挑战。为此,在实践中提出了许多解决方案,以实现网站高性能、高可靠性、易伸缩、可扩展、安....
分类:Web程序   时间:2014-12-19 18:52:15    阅读次数:161
Hadoop2 伪分布式部署
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据,则MapReduce为海量的数据提供了计算。Hadoop 容易开发和运行处理大...
分类:其他好文   时间:2014-12-19 10:07:54    阅读次数:307
Hermes与开源的Solr、ElasticSearch的不同
Hermes与开源的Solr、ElasticSearch的不同          谈到Hermes的索引技术,相信很多同学都会想到Solr、ElasticSearch。Solr、ElasticSearch在真可谓是大名鼎鼎,是两个顶级项目,最近有些同学经常问我,“开源世界有Solr、ElasticSearch为什么还要使用Hermes?”          在回答这个问题之前,大家可以...
分类:其他好文   时间:2014-12-18 17:01:28    阅读次数:159
方法论_海量数据处理分析
2014-12-18 BaoXinjian一、摘要1. 数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在...
分类:其他好文   时间:2014-12-18 11:39:02    阅读次数:173
Aprior算法Hadoop上实现思路与关键部分代码
本人最近研究Aprior算法,由于要实现海量数据的分析挖掘,需要在hadoop平台加以实现。在网上看过一些Aprior算法Mapreduce的代码,感觉拿过来都不好直接用,而且,多数都不是原味的Aprior,或者经过改进,是FP-growth算法,或者是将数据分块,各块独立运行Aprior算法,不是...
分类:编程语言   时间:2014-12-17 22:10:20    阅读次数:298
LOSF 海量小文件问题综述
1、LOSF问题概述 在互联网(尤其是移动互联网)、物联网、云计算、大数据等高速发展的大背景下,数据呈现爆炸式地增长。根据IDC的预测,到2020年产生的数据量 将达到40ZB,而之前2011年6月的预测是35ZB。然而,社会...
分类:其他好文   时间:2014-12-14 22:52:46    阅读次数:634
大数据处理之道 (MATLAB 篇)
一:起因 (1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算 (2)问题来了,面对海量的数据,如何从中挖掘实用的信息或者发现潜在的现象,可视化工具可能是必不可少的 ; (3)可视化工具可以说百度一大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出一种数学模型,对现实的现象...
分类:其他好文   时间:2014-12-13 23:23:43    阅读次数:769
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!