数据平台在大部分公司都属于支撑性平台,做的不好立刻会被吐槽,这点和运维部门很像。所以在技术选型上优先考虑现成的工具,快速出成果,没必要去担心有技术负担。早期,我们走过弯路,认为没多少工作量,收集存储...
分类:
其他好文 时间:
2015-07-31 06:50:32
阅读次数:
240
Zabbix是什么?Zabbix是一个开源的企业级分布式解决方案。zabbix是一个监控多种资源的软件,包括网络,集成服务的健康状态等。Zabbix使用灵活的通知机制,它允许用户配置基于e-mail的事件报警机制,允许快速的反馈服务器的问题,Zabbix提供了一个基于存储的历史数据,显示一个..
分类:
其他好文 时间:
2015-07-31 06:42:30
阅读次数:
146
Spark SQL通过DataFrame接口支持多种数据源操作。一个DataFrame可以作为正常的RDD操作,也可以被注册为临时表。...
分类:
数据库 时间:
2015-07-30 21:28:09
阅读次数:
312
Spark使用Akka作为各种功能和组件之间的通信工具。同样,在资源调度过程中也使用其作为消息传递系统。之前,在分析了Apache Spark-1.0.0资源调度过程中,明确了主要消息的传递过程和引起的相关动作,本文主要分析Spark资源调度过程中所用到的Akka通信的初始化过程。(I)Job相关(...
分类:
Web程序 时间:
2015-07-30 18:56:06
阅读次数:
520
def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("DecisionTree1").setMaster("local[2]") sparkConf.set("es.inde...
分类:
其他好文 时间:
2015-07-30 18:47:41
阅读次数:
176
随着Spark的逐渐成熟完善,?越来越多的可配置参数被添加到Spark中来,?本文试图通过阐述这其中部分参数的工作原理和配置思路,?和大家一起探讨一下如何根据实际场合对Spark进行配置优化。 由于篇幅较长,所以在这...
分类:
其他好文 时间:
2015-07-30 17:17:51
阅读次数:
189
1.hadoop查看hdfs上的目录: hadoop fs -ls /在hdfs上创建一个目录: hadoop fs -mkdir /jiatest把文件上传到hdfs指定目录: hadoop fs -put test.txt /jiatest上传jar包到hadoop上跑...
分类:
系统相关 时间:
2015-07-30 01:56:10
阅读次数:
205
今天学习了王家林老师scala讲座的第29讲,case class和case object的应用实战。做下记录。信息来源于 DT大数据梦工厂微信公众账号:DT_Spark关注微信账号,获取更多关于王家林老师的课程内容王老师QQ:1740415547 微信号:18610086859话不多说,让我们从代...
分类:
其他好文 时间:
2015-07-30 00:38:12
阅读次数:
2878
开发机器上安装jdk1.7.0_60和scala2.10.4,配置好相关环境变量。网上资料很多,安装过程忽略。此外,Eclipse使用Luna4.4.1,IDEA使用14.0.2版本。1. Eclipse开发环境搭建1.1. 安装scala插件安装eclipse-scala-plugin插件,下载地...
分类:
系统相关 时间:
2015-07-29 22:41:21
阅读次数:
349
Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这种编程抽象,同时也可以作为分布式SQL查询引擎使用。DataFramesDataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,不过在底层做了很多优化;我们可以使用结构化数据文件、Hive tables,外部数据库或者RDDS来构造DataFrames...
分类:
数据库 时间:
2015-07-29 17:22:28
阅读次数:
196