Hive介绍http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.htmlHive的数据类型和数据模型http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.ht...
分类:
数据库 时间:
2014-12-24 19:59:40
阅读次数:
182
题记: 好吧玩起来命令就是没有 写代码舒服那么一点点,但是我们一点都不能懈怠啊, hive 操作的文件需要从这里加载 与linux 的命令相似, 命令行开头为 hadoop fs -(破折号) ls / 列出文件或者目录 cat hadoop f...
分类:
其他好文 时间:
2014-12-23 21:21:47
阅读次数:
177
线上一个项目需要操作hdfs和hive,在使用时报如下错误:java.lang.UnsupportedOperationException:Thisissupposedtobeoverriddenbysubclasses.
atcom.google.protobuf.GeneratedMessage.getUnknownFields(GeneratedMessage.java:180)
atorg.apache.hadoop.hdfs.protocol.proto...
分类:
其他好文 时间:
2014-12-23 06:51:06
阅读次数:
258
一: Hive基本概念 1. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapRe...
分类:
其他好文 时间:
2014-12-23 00:16:50
阅读次数:
224
Hive使用HDFS目录数据创建Hive表分区...
分类:
其他好文 时间:
2014-12-22 18:02:19
阅读次数:
152
hadoop是有apache基金会所开发的分布式系统基础架构,其主要提供了两方面的功能:分布式存储和分布式计算。 其中分布式存储是分布式计算的基础,在hadoop的实现里面,提供了分布式存储的接口,并自己实现了一个分布式存储的实现即HDFS,但并不代表 hadoop只支持HDFS这一中实现,其同时支...
分类:
其他好文 时间:
2014-12-22 10:47:29
阅读次数:
164
Spark 1.2.0是在1.X线的第三个版本。此版本带来了Spark的核心引擎性能和可用性方面的改进,一个重要的MLlib新API,Python的扩展ML支持,一个完全高可用的Spark流模式,等等。 GraphX已经看到主要性能和API改进,已经从alpha组件毕业。Spark 1.2代表来自60多个机构的172贡献者的1000个补丁的工作。...
分类:
数据库 时间:
2014-12-20 14:17:05
阅读次数:
304
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。如何从企业级开发实战的角度开始,在实际企业级动手操作中深入浅出并循序渐进的掌握Hadoop是本课程的核心。云计算学习者的心声:如何从企业级开发的角度,不断动手实际操作,循序...
分类:
其他好文 时间:
2014-12-20 02:05:45
阅读次数:
209
文章来自http://www.cnblogs.com/hark0623/p/4174641.html 转发请注明有时候执行表联查的时候总会出现没有权限写文件的情况。这个时候使用sudo -H hive hive -e "select * from tbl1 join tbl2 on tbl1.fie...
分类:
其他好文 时间:
2014-12-19 20:36:08
阅读次数:
211
在hive的源码中经常可以看到Context类和DriverContext类,咋一看感觉这两个意思差不多,其实其作用区别还是蛮大的:org.apache.hadoop.hive.ql.Context类存储job的上下文信息,一个job创建一个Context对象,job运行完后,调用clear方法进行清除1)初始化/创建/删除中间目录中间..
分类:
其他好文 时间:
2014-12-19 02:00:51
阅读次数:
998