码迷,mamicode.com
首页 >  
搜索关键字:hadoop hive    ( 18237个结果
Hadoop专业解决方案-第3章:MapReduce处理数据
Hadoop的核心处理模块是MapReduce,也是当前最流行的大数据处理架构之一。它能够将Hadoop数据存储无缝的融入到数据处理当中,使得它在操作上足够简单,功能上足够强大。MapReduce已经解决很多实际问题(从日志分析,到数据排序,到文本操作,到基于模式的搜索,到图像处理,到机器学习等等)...
分类:其他好文   时间:2014-05-27 00:14:28    阅读次数:449
hbase使用SQL查询
因为需要统计hbase中某个特定列不为空的行数,我寻思有没有支持直接用SQL查询的,查找了下,发现有两个可以支持:一个是apache phoenix,一个是Cloudera的Impala。如果用Impala,需要使用Cloudera的hadoop发行版。
分类:数据库   时间:2014-05-26 22:02:35    阅读次数:322
Hadoop fs命令(转)
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:其他好文   时间:2014-05-26 20:44:49    阅读次数:308
用shell脚本自动化安装hadoop
hadoop环境的部署配置很费时间,有时候开发人员也不怎么关注。如何快速部署一个hadoop环境呢,我用shell脚本编写了一个小程序,可以完成这个功能。
分类:其他好文   时间:2014-05-26 20:42:07    阅读次数:436
zookeeper 分布式管理
分布式框架: Zookeeper与paxos算法一、zookeeper是什么官方说辞:Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。好抽象,我们...
分类:其他好文   时间:2014-05-26 16:37:39    阅读次数:300
pyinstaller打包python源程序访问hive
1.需求 使用hvie server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web UI自助查询,当然hive有自己的hwi可以通过网页UI进行自助查询,但是这对不懂sql的业务人....
分类:编程语言   时间:2014-05-24 14:11:12    阅读次数:406
Hive中小表与大表关联(join)的性能分析【转】
Hive中小表与大表关联(join)的性能分析【转自:http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html】经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到...
分类:其他好文   时间:2014-05-24 08:58:53    阅读次数:531
windows下eclipse调试hadoop详解
1)下载Eclipse http://www.eclipse.org/downloads/ Eclipse Standard 4.3.2 64位   2) 下载hadoop版本对应的eclipse插件 我的hadoop是1.0.4,因此下载hadoop-eclipse-plugin-1.0.4.jar 下载地址:http://download.csdn.net/detail/m_sta...
分类:Windows程序   时间:2014-05-22 23:48:33    阅读次数:607
Cloudera CDH 5集群搭建(yum 方式)
Hadoop CDH YUM Spark...
分类:其他好文   时间:2014-05-22 22:56:05    阅读次数:521
hadoop学习;hadoop伪分布搭建
先前已经做了准备工作安装jdk什么的 接下来开始...
分类:其他好文   时间:2014-05-22 18:28:38    阅读次数:296
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!