转自 http://www.cstor.cn/textdetail_6531.html
分类:
其他好文 时间:
2014-05-09 03:37:49
阅读次数:
201
一、准备工作: 1、下载release版spark
0.9.1,本次用的版本是spark-0.9.1-bin-cdh4。 2、下载scala IDE 3.0.2,这个版本ide的支持scala 2.10版。
二、配置工作 1、在ide中新建scala项目,注意jre要用jdk1.7版的。如下图: 2...
分类:
系统相关 时间:
2014-05-09 03:27:34
阅读次数:
512
1.大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据,事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生,也可能不会顺序产生,比如某些事务发生在早上10点,但是在下午5点才结束闭并生成出来,这样的数据就会造成存储加载时的时间连续性。另外海量数据的挖掘后产生的是统计数据,...
分类:
其他好文 时间:
2014-05-09 03:03:39
阅读次数:
347
Akka 是一个用 Scala 编写的库,用于简化编写容错的、高可伸缩性的 Java 和 Scala
的 Actor 模型应用。Actor模型并非什么新鲜事物,它由Carl
Hewitt于上世纪70年代早期提出,目的是为了解决分布式编程中一系列的编程问题。其特点如下:系统中的所有事物都可以扮演一个A...
分类:
其他好文 时间:
2014-05-08 12:32:32
阅读次数:
392
大数据是一个体量特别大,数据类别特别大的数据集。也就是说“大数据”本身并不是一种新的技术,也不是一种新的产品,
而是我们这个时代出现的一种现象。而这个“大”达到了一种什么样的程度呢?可以说他即将突破现有常规软件所能提供的能力极限。
综上所述,我们觉得使用麦肯锡的定义可能会更为简洁明了:大数据是指无法...
分类:
其他好文 时间:
2014-05-08 12:30:00
阅读次数:
301
引言
工作之余参加了Coursera的公开课Functional Programming Principles in Scala,这个课是第三次开讲了,讲师仍然是Scala的祖师爷Martin Odersky先生。个人认为学习公开课最大的阻碍在于有些老师的口音实在是……不忍直视,比如最早在Coursera开授公开课的Andrew Ng(当然他现在是小老板了)。幸好Martin大爷的英文口音不是很...
分类:
其他好文 时间:
2014-05-08 05:58:43
阅读次数:
405
参考自《大型网站技术架构》第1~3章
1、大型网站架构演化发展历程
(1)初始阶段的网站架构:一台服务器分别作为应用、数据、文件服务器
(2)应用服务和数据服务分离:三台服务器分别承担上述三项工作,其中应用服务器要求CPU强大、数据库服务器需求更快的硬盘和内存,文件服务器需要较大的硬盘。
(3)使用缓存改善网站性能:分为本地缓存以及缓存在专门的分布式服务器上的远程缓存。
(4)使...
分类:
Web程序 时间:
2014-05-08 04:42:48
阅读次数:
430
高精度之大数的除法,大数据计算c语言一样强大...
分类:
其他好文 时间:
2014-05-08 04:27:19
阅读次数:
281
大数据量引起的高并发处理:
1、数据量超过百万时增加集群服务器,比如使查询和操作分别在不同服务器上执行,如果数据量超过千万时这样会增加服务器间相互复制数据的资源开销,这时考虑把数据资源比如用户表根据ID放在不同的数据库集群中。
2、是页面静态化,因为html比jsp更节省资源和性能,考虑将页面做成html返回给客户,比如用freemarker工具
3、缓存技术,集群中采用memcached...
分类:
其他好文 时间:
2014-05-08 04:18:07
阅读次数:
361
因为关注大数据,也写过若干关于大数据的文章,做过若干关于大数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣。过去几年,在这方面读过十几本书,上百篇论文和文章。相对而言,舍恩伯格的《大数据时代》是迄今为止我读过的最好的一本专著,中英文都算上。此书的一大贡..
分类:
其他好文 时间:
2014-05-07 15:24:59
阅读次数:
226