Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:
其他好文 时间:
2014-05-27 00:14:28
阅读次数:
449
概述
最近.NET的世界开始闹腾了,微软官方终于加入到了对.NET跨平台的支持,并且在不久的将来,我们在VS里面写的代码可能就可以通过Mono直接在Linux和Mac上运行。那么大家(开发者和企业)为什么那么的迫切的希望.NET跨平台呢?第一个理由是便宜,淘宝号称4万多台服务器全部运行在Linux....
因为需要统计hbase中某个特定列不为空的行数,我寻思有没有支持直接用SQL查询的,查找了下,发现有两个可以支持:一个是apache
phoenix,一个是Cloudera的Impala。如果用Impala,需要使用Cloudera的hadoop发行版。
分类:
数据库 时间:
2014-05-26 22:02:35
阅读次数:
322
引言HTTP
是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和
扩展。目前在WWW中使用的是HTTP/1.0的第六版,HTTP/1.1的规范化工作正在进行之中,而且HTTP-NG(Next Generat...
分类:
其他好文 时间:
2014-05-26 21:22:56
阅读次数:
274
CSS(Cluster synchronizationservice)
这个服务通过管理集群中的节点成员身份完成整个集群的配置工作,每当有新的节点加入到集群,或者有节点离开时,CSS服务负责通知集群的所有节点变更集群配置信息。如果某个节点上的整个进程失败,就会重启这个节点,这个进程是以root身份运行。
CRS(clusterready service)
这个组件负责集群的高可用性。被CRS管理的对象叫做集群资源。这些资源包括数据库、实例、监听、VIP地址以及应用程序进程。缺省情况下CRS管理着...
分类:
Web程序 时间:
2014-05-23 01:55:04
阅读次数:
514
在Mahout中出现错误:MAHOUT_LOCAL is not set;adding HADOOP_CONF_DIR to classpath
MAHOUT_LOCAL与HADOOP_CONF_DIR
以上的两个参数是控制Mahout是在本地运行还是在Hadoop上运行的关键。
$MAHOUT_HOME/bin/mahout文件指出,只要设置MAHOUT_LOCAL的值为一个非空(...
分类:
其他好文 时间:
2014-05-23 00:40:35
阅读次数:
365
如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。
传统关系型数据库(mysql,oracle)数据存储方式主要如下:
图一
上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引...
分类:
数据库 时间:
2014-05-23 00:19:11
阅读次数:
301
1)下载Eclipse
http://www.eclipse.org/downloads/
Eclipse Standard 4.3.2 64位
2) 下载hadoop版本对应的eclipse插件
我的hadoop是1.0.4,因此下载hadoop-eclipse-plugin-1.0.4.jar
下载地址:http://download.csdn.net/detail/m_sta...
先前已经做了准备工作安装jdk什么的
接下来开始...
分类:
其他好文 时间:
2014-05-22 18:28:38
阅读次数:
296