Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:
其他好文 时间:
2014-05-27 00:14:28
阅读次数:
449
libvirtLibvirt 库是一种实现 Linux 虚拟化功能的 Linux?
API,它支持各种虚拟机监控程序,包括 Xen 和 KVM,以及 QEMU 和用于其他操作系统的一些虚拟产品。NettyNetty
提供异步的、事件驱动的网络应用程序框架和工具,用以快速开发高性能、高可靠性的网络服务...
分类:
其他好文 时间:
2014-05-26 23:38:51
阅读次数:
325
系统# uname -a # 查看内核/操作系统/CPU信息 # head -n 1
/etc/issue # 查看操作系统版本 # cat /proc/cpuinfo # 查看CPU信息 # hostname # 查看计算机名 # lspci
-tv # 列出所有PCI设备 # lsusb -tv...
分类:
系统相关 时间:
2014-05-26 22:56:12
阅读次数:
391
因为需要统计hbase中某个特定列不为空的行数,我寻思有没有支持直接用SQL查询的,查找了下,发现有两个可以支持:一个是apache
phoenix,一个是Cloudera的Impala。如果用Impala,需要使用Cloudera的hadoop发行版。
分类:
数据库 时间:
2014-05-26 22:02:35
阅读次数:
322
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop
fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:
其他好文 时间:
2014-05-26 20:44:49
阅读次数:
308
hadoop环境的部署配置很费时间,有时候开发人员也不怎么关注。如何快速部署一个hadoop环境呢,我用shell脚本编写了一个小程序,可以完成这个功能。
分类:
其他好文 时间:
2014-05-26 20:42:07
阅读次数:
436
分布式框架:
Zookeeper与paxos算法一、zookeeper是什么官方说辞:Zookeeper 分布式服务框架是Apache Hadoop
的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。好抽象,我们...
分类:
其他好文 时间:
2014-05-26 16:37:39
阅读次数:
300
一 、查看已安装的nginx是否包含stub_status模块
/usr/local/nginx/sbin/nginx -V nginx version: Nginx/1.2.0 configure arguments:
--with-http_stub_status_module 确定支持stub...
分类:
其他好文 时间:
2014-05-26 16:34:01
阅读次数:
233
在vsphere产品中内建一个监控所有虚机包括主机资源的插件,叫做vcenter
servcie
status,这个插件的主要功能是记录当前虚拟机资源的cpu、硬盘、内存和网络等相关信息。通过它可以查看24小时、周年月性能情况。而微软则需要另外安装scom产品。那么,它究竟是如何工作的,如何记录数据...
分类:
其他好文 时间:
2014-05-26 16:09:10
阅读次数:
269
先前已经做了准备工作安装jdk什么的
接下来开始...
分类:
其他好文 时间:
2014-05-22 18:28:38
阅读次数:
296