记录安装Spark环境的过程。前提是Hadoop集群已经安装,详见:Hadoop 2.X 集群安装环境:Centos 6.4 X64 & Hadoop 2.2(三节点集群) & Spark 1.01、获取Spark源码,可以去官网下载,解压。2、编译源码。1)先安装Maven。2)进入源码目录,执行...
分类:
其他好文 时间:
2014-07-16 19:28:29
阅读次数:
180
数据存储 MongoDb 针对大数据量、高并发、弱事务的互联网应用 MemCache 简单的key-value存储,读取内存,效率高 Redis 可存储list,持久化,内存读取效率高 Cassandra 分布式数据库,更好的扩展性,对大数据更好的支持 http://www.ibm...
分类:
其他好文 时间:
2014-07-15 08:00:42
阅读次数:
220
内容目录:为什么使用NoSQL数据库?键值数据库文档数据库列族数据库图数据库附思维导图参考NoSQL系列:选择合适的数据库为什么使用NoSQL数据库?阻抗失衡 关系模型和内存中的数据结构不匹配 采用更为方便的数据交互方式提升开发效率 待处理的数据量很大 数据量超过关...
分类:
数据库 时间:
2014-07-15 00:40:27
阅读次数:
388
在通过WebService处理大数据量数据时出现如下错误:soap fault: 运行配置文件中指定的扩展时出现异常。 ---> 超过了最大请求长度。解决方法:因为上传的文件大于系统默认配置的值,asp.net web service默认的请求长度是4M。1、针对单个项目,只需修改Web.confi...
分类:
Web程序 时间:
2014-07-14 23:28:05
阅读次数:
249
本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。...
分类:
其他好文 时间:
2014-07-14 17:17:25
阅读次数:
289
当访问WebSerivice时,如果数据量很大,传输数据时就会很慢。为了提高速度,我们就会想到对数据进行压缩。首先我们来分析一下。 当在webserice中传输数据时,一般都采用Dataset进行数据传输。执行的过程就是先把Dataset转化为xml进行传输,Dataset转化为xml的格式如下:[...
分类:
Web程序 时间:
2014-07-14 15:40:01
阅读次数:
309
Google声称内部已经抛弃Map-reduce几年了,并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算,并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。
分类:
其他好文 时间:
2014-07-13 20:29:26
阅读次数:
353
引言 最近LZ带头在做一个互联网项目,互联网的东西总是那么新鲜,这也难怪大部分猿友都喜欢互联网。这个互联网项目不仅让LZ开发了一个HBase大数据应用,近期的一次需求讨论会上,又出来一个小需求,蛮有意思的。这些需求在之前枯燥的企业内部应用开发中,还是很难见到的,毕竟内部应用更多的是业务流程的体现。....
分类:
其他好文 时间:
2014-07-13 19:13:57
阅读次数:
266
前面几章节谈论了企业如何利用大数据帮助企业建立精准营销模型,大家了解了"大数据"\"小数据",那么数据本身的问题解决了,今天我说一下另外一个非常重要的概念,就是"即时性"。可以说大数据最重要的意义之一是解决了营销上的“实时性”问题,在当下手机、平板多屏运作,快速处理用..
分类:
其他好文 时间:
2014-07-13 15:18:57
阅读次数:
183