http://blog.sina.com.cn/s/blog_7ca5799101013dtb.html目前,虽然大数据与数据库一体机都很火热,但相当一部分人却无法对深入了解这两者的本质区别。这里便对大数据技术(如Hadoop等,主要指MapReduce与NoSQL)与数据库一体机(新一代的主流关系...
分类:
数据库 时间:
2014-06-29 06:09:08
阅读次数:
298
摘要MapReduce是一个编程模型,和处理,产生大数据集的相关实现.用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集.然后再指定一个reduce函数合并所有的具有相同中间key的中间value.下面将列举许多可以用这个模型来表示的现实世界的工作.以这种方式写...
分类:
其他好文 时间:
2014-06-29 00:17:14
阅读次数:
369
关于SQL分页的问题,网上找到的一些SQL其实不能真正做到通用,他们主要是以自增长ID做为前提的。但在实际使用中,很多表不是自增长的,而且主键也不止一个字段,其实我们稍做改进就可以达到通用。这里还增加了索引,以方便大数据量的使用(代码中是先抓到临时表的,从性能上说如果采用自增长式的ID表,当然可以不...
分类:
数据库 时间:
2014-06-28 23:20:50
阅读次数:
292
阿里巴巴集团总參谋长曾鸣大数据最重要的特征不在大小,而在死活。就企业而言,数据的死活决定一切,从数据的管理到数据的运用,数据必须能活起来,開始跑通迭代,才干产生持续价值。互联网将高速颠覆众多的传统行业。这两年,这种话听多了,多少有些“狼来了”,让人逐渐麻木。但是,不经意间,出租车这个再传统只是的行业...
分类:
其他好文 时间:
2014-06-21 08:29:38
阅读次数:
180
private和public的作用是让编译器帮你检查某些模块是否使用了他没权限使用的模块,也就是生成可执行代码的时候做权限检查。比如,公司里各个部门有自己私有的信息,财务部可以看所有员工工资,而销售部不可以,普通员工也不可以。 可不可以访问都是认为规定的,而且在写代码的时候程序是不会执行的,因...
分类:
编程语言 时间:
2014-06-21 07:09:25
阅读次数:
704
HBase在大数据领域的应用越来越广泛,成为目前NoSQL数据库中表现最耀眼,呼声最高的产品之一,但就应对复杂条件的查询来说,一般认为它并不是非常适合,熟悉HBase的开发人员对此应该有一定的体会,但是基于普遍的需求,开发者们希望HBase在保持高性能优势的同时能对复杂条件的查询给予一定的支持,而本文将要介绍的正是一种在HBase现行机制下以非侵入式实现的基于二级多列索引的高性能复杂条件查询引擎。...
分类:
其他好文 时间:
2014-06-18 06:29:49
阅读次数:
224
让世界球迷翘首以盼的世界杯,在热情的桑巴舞和全世界球迷的欢呼中如期而至。在此期间,无论是资深球迷还是伪球迷,甚至是压根不看球的普通人,对于世界杯,都必然提及一二,这俨然成为了世界的节日,一个万众期待的狂欢party。随着移动互联的高度普及和发展,“社交足球”似乎踢得比世界杯还火热,各种渠道,各种工具...
分类:
其他好文 时间:
2014-06-17 23:30:11
阅读次数:
290
随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。尤其是OpenStack作为目前最流行的开源云版本如何部署在Hadoop上。...
分类:
其他好文 时间:
2014-06-17 19:00:58
阅读次数:
304
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
从2011年开始,中国进入大数据风起云...
分类:
其他好文 时间:
2014-06-17 16:44:25
阅读次数:
310
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-06-17 15:02:18
阅读次数:
194