Spark SQL 物理计划到 RDD 的计算过程实现。...
分类:
数据库 时间:
2014-07-29 22:08:02
阅读次数:
656
1.unix时间戳转时间函数
语法: from_unixtime(bigint unixtime[, string format])
返回值: string
说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式
举例:
hive> select from_unixtime(1323308943,‘yyyyMMdd’) from...
分类:
其他好文 时间:
2014-07-29 17:56:42
阅读次数:
434
前言hive是构建在Hadoop上的数据仓库平台,其设计目标是:使Hadoop上的数据操作与传统的SQL结合,让熟悉sql的开发人员能够轻松的像Hadoop平台迁移。Hive是Facebook的信息平台的重要组成部分,Facebook在2008年将其共献给Apache,现在Hive是Hadoop家族...
分类:
其他好文 时间:
2014-07-29 17:22:12
阅读次数:
282
本文部分来源:http://www.it165.net/admin/html/201406/3239.html https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration创建 表:hbase_hive_1REATE TABLE....
分类:
其他好文 时间:
2014-07-29 16:51:32
阅读次数:
285
Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。...
分类:
数据库 时间:
2014-07-29 14:46:18
阅读次数:
514
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。...
分类:
数据库 时间:
2014-07-29 14:35:08
阅读次数:
308
Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。...
分类:
数据库 时间:
2014-07-29 13:10:36
阅读次数:
328
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372
1.7 Spark Web 界面
每一个SparkContext发布一个web界面,默认端口是4040,它显示了应用程序的有用信息。这包括:
Ø 一系列的调度阶段和任务
Ø 对于RDD大小和内存使用的总结
Ø 环境信息
Ø 运行的执行器(executor)的信息
你可以通过浏览器访问http://:4040,当然,你必去先启动SparkContext。比如命令:./bin/sp...
分类:
Web程序 时间:
2014-07-28 16:35:43
阅读次数:
1584