Spark SQL之Catalyst的物理计划,讲解了物理计划的产生过程,以及涉及到的策略。...
分类:
数据库 时间:
2014-07-29 14:46:18
阅读次数:
514
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。
1.Streaming固定的代码,该代码可以...
分类:
其他好文 时间:
2014-07-29 14:39:08
阅读次数:
340
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。...
分类:
数据库 时间:
2014-07-29 14:35:08
阅读次数:
308
Spark SQL 源码分析系列文章,从整个SQL执行流程到各个环节的关键组件,以及Catalyst框架的讲解。...
分类:
数据库 时间:
2014-07-29 13:10:36
阅读次数:
328
自然语言处理
ScalaNLP—机器学习和数值计算库的套装
Breeze —Scala用的数值处理库
Chalk—自然语言处理库。
FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。
数据分析/数据可视化
MLlib in Apache Spark—Spark下的分布式机器学...
分类:
其他好文 时间:
2014-07-29 13:01:37
阅读次数:
372
案例取自streaming-app项目package com.asiainfo.ocdc.streaming.toolsimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.conf.Configurati...
分类:
其他好文 时间:
2014-07-29 11:02:26
阅读次数:
1081
1.7 Spark Web 界面
每一个SparkContext发布一个web界面,默认端口是4040,它显示了应用程序的有用信息。这包括:
Ø 一系列的调度阶段和任务
Ø 对于RDD大小和内存使用的总结
Ø 环境信息
Ø 运行的执行器(executor)的信息
你可以通过浏览器访问http://:4040,当然,你必去先启动SparkContext。比如命令:./bin/sp...
分类:
Web程序 时间:
2014-07-28 16:35:43
阅读次数:
1584
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。不过,目前对此网上介绍的文章不是很多。拿KMeans来说,网上有些文章提供了一些示例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,几乎都没有展示如何使用该模型、程序执行流程、结果展示以及举例测试数据等部分。笔者根据Apache Spark官网上的程序片断,写了一个完整的调用MLlib KMeans库的测试程序,并成功在Spark 1.0 + Yarn 2.2 的...
分类:
其他好文 时间:
2014-07-28 00:01:39
阅读次数:
343
Spark SQL 中Catalyst的核心优化器Optimizer源码剖析...
分类:
数据库 时间:
2014-07-26 02:17:36
阅读次数:
390