Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:
其他好文 时间:
2014-05-27 00:14:28
阅读次数:
449
因为需要统计hbase中某个特定列不为空的行数,我寻思有没有支持直接用SQL查询的,查找了下,发现有两个可以支持:一个是apache
phoenix,一个是Cloudera的Impala。如果用Impala,需要使用Cloudera的hadoop发行版。
分类:
数据库 时间:
2014-05-26 22:02:35
阅读次数:
322
今天在编译安装ffmpeg的时候出现了题目中的问题,最终解决方案如下:errors:ffmpeg正常安装后执行ffmpeg时出现如下错误:ffmpeg:
error while loading shared libraries: libavdevice.so.52: cannot open shar...
分类:
其他好文 时间:
2014-05-26 20:54:37
阅读次数:
313
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop
fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:
其他好文 时间:
2014-05-26 20:44:49
阅读次数:
308
hadoop环境的部署配置很费时间,有时候开发人员也不怎么关注。如何快速部署一个hadoop环境呢,我用shell脚本编写了一个小程序,可以完成这个功能。
分类:
其他好文 时间:
2014-05-26 20:42:07
阅读次数:
436
分布式框架:
Zookeeper与paxos算法一、zookeeper是什么官方说辞:Zookeeper 分布式服务框架是Apache Hadoop
的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。好抽象,我们...
分类:
其他好文 时间:
2014-05-26 16:37:39
阅读次数:
300
LTMP 指的 linux + tengine + mysql + php。我下载的 CentOS
6.5 32位, 自带了 apache、mysql, 我得卸载掉。1.切换到root用户[admin@localhost ~]$ su -
root[root@localhost /]# find /...
分类:
其他好文 时间:
2014-05-26 09:06:11
阅读次数:
242
hadoop安装计大体上按这个做就好了http://blog.csdn.net/hitwengqi/article/details/8008203需要修改hadoop-env.shexport
JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64export PAT...
分类:
其他好文 时间:
2014-05-24 11:17:22
阅读次数:
210
tmux(全名是TerminalMultiplexer)是一个优秀的终端复用软件,类似GNUScreen,但来自OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机;当然其功能远不止于此。与s..
分类:
系统相关 时间:
2014-05-22 17:56:35
阅读次数:
883
axel是Linux命令行下多线程的下载工具,支持断点续传,速度通常情况下是Wget的几倍官方主页:http://axel.alioth.debian.org/源码下载:#curl-Ohttp://pkgs.fedoraproject.org/repo/pkgs/axel/axel2.4.tar.gz/a2a762fce0c96781965c8f9786a3d09d/axel-2.4.tar.gz编译安装:#tar-xvf..
分类:
编程语言 时间:
2014-05-22 17:41:24
阅读次数:
521