一:起因
(1)最近一直在处理大数据,从MB ----> GB的变化,是一次质的飞跃,相应的工具也在变 从widows到linux,从单机单核 到 hadoop多节点的计算
(2)问题来了,面对海量的数据,如何从中挖掘实用的信息或者发现潜在的现象,可视化工具可能是必不可少的 ;
(3)可视化工具可以说百度一大篇,可是作为研究者的我们,程序猿的我们可能更希望能够抽象出一种数学模型,对现实的现象...
分类:
其他好文 时间:
2014-12-13 23:23:43
阅读次数:
769
今天,友盟推出了新战略“友盟数据工场”和数据产品“用户评级”。业界500多名开发者与我们一同见证了这一时刻。在此,感谢大家的支持!同时,想把我们最新的动态分享给所有盟友。“数据工场”能给开发者带来什么价值?友盟高级技术总监叶谦介绍了“数据工场”的运转流程,其挖掘系统构建在开源大数据处理平台,通过设备...
分类:
其他好文 时间:
2014-12-12 16:33:32
阅读次数:
197
最近看了比较多的关于大数据处理方面的知识,但是例如Hadoop,Spark,Storm等平台大都是对于数据的存储和管理操作,并不是对于数据进行分析和处理的。所以这里就衍生出了另外一种对于数据的处理,数据挖掘。学习数据挖掘也非常偶然,首先毕竟本人一直在做的是数据方面的工作,数据挖掘相当于是对数据处理后的下一步操作,学习一下数据挖掘的基本知识,了解了解常用的一些数据挖掘算法,对我来说也是一件不错的事。...
分类:
其他好文 时间:
2014-12-05 17:27:05
阅读次数:
151
在刘军编写的《Hadoop大数据处理》截了两张图:
分类:
其他好文 时间:
2014-12-02 10:42:36
阅读次数:
173
面对虚拟化、非结构化数据等新挑战,昆腾提出的解决思路其实很简单,也很直接,就是区分不同的数据类型和需要,然后采取不同的更有针对性的保护方式。这其实就是今天人们处理大数据的基本思路。在云计算、大数据等新概念出现后,主存储,也就是在线存储,其性能、可靠性、可管..
分类:
其他好文 时间:
2014-12-01 19:27:14
阅读次数:
181
一:大数组转存到文件里,可以考虑逐行写入,并配合多进程来写入/* * 参 数:$file 字符串 文件名 * $key 字符串 数组键名 * $value 字符串 数组键值 * $step 字符串 当前程序步骤,只有三个值:初始化init/执行中doing/完成done * ...
分类:
其他好文 时间:
2014-11-26 16:15:49
阅读次数:
223
转自:http://www.douban.com/note/309472506/海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析...
分类:
其他好文 时间:
2014-11-20 18:35:59
阅读次数:
205
Hadoop作为大数据处理的典型平台,在海量数据处理过程中,其主要限制因素是节点之间的数据传输速率。因为集群的带宽有限,而有限的带宽资源却承担着大量的刚性带宽需求,例如Shuffle阶段的数据传输不可避免,所以如何优化带宽资源的占用是一个值得思考的问题。仔细思考下,Hadoop数据传输的需求主要.....
分类:
其他好文 时间:
2014-11-17 22:43:56
阅读次数:
257
一、Oracle中大数据处理 在Oracle中,LOB(Large Object,大型对象)类型的字段现在用得越来越多了。因为这种类型的字段,容量大(最多能容纳4GB的数据),且一个表中可以有多个这种类型的字段,很灵活,适用于数据 量非常大的业务领域(如图象、档案等)。 LOB类型分为BLOB和.....
分类:
数据库 时间:
2014-11-15 16:44:54
阅读次数:
363
1.SparkSpark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。效率:据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。语言:支持的语言包括java、scala、python等,此外还支持SQL查询。...
分类:
其他好文 时间:
2014-11-13 20:40:19
阅读次数:
129