语法:select 函数,列(要求出现在group by的后面)from表【where筛选条件】group by分组的列表order by子句】注意:l查询列表必须特殊,要求是分组函数和group by后出现的字段 ...
分类:
数据库 时间:
2021-01-18 11:19:57
阅读次数:
0
词频统计: 要求:统计Harry Potter.txt文件中出现最多单词前十位 内容样例: 代码及结果: @Test//词频统计 def WordCount(): Unit ={ val conf=new SparkConf().setMaster("local[6]").setAppName("w ...
分类:
其他好文 时间:
2021-01-18 11:17:13
阅读次数:
0
##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...
分类:
数据库 时间:
2021-01-18 11:03:21
阅读次数:
0
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:
其他好文 时间:
2021-01-15 12:15:21
阅读次数:
0
I'm back.I've get an offer from my current job,as a developer. Also, I decide to maintian my hobby to write down what I've learnt during my closing ti ...
分类:
其他好文 时间:
2021-01-14 10:42:08
阅读次数:
0
大纲 1. 多表查询 2. 事务 3. DCL 多表查询: * 查询语法: select 列名列表 from 表名列表 where.... * 准备sql # 创建部门表 CREATE TABLE dept( id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCH ...
分类:
数据库 时间:
2021-01-12 10:49:54
阅读次数:
0
任务的划分 ? DAGScheduler类的handleJobSubmitted方法中,有一个提交阶段的的方法: var finalStage: ResultStage = null …… finalStage = createResultStage(finalRDD, func, partitio ...
分类:
其他好文 时间:
2021-01-12 10:29:01
阅读次数:
0
一、案例: 1、明确需求: 在访问日志中,统计独立ip数量TOP10 2、查看数据结构: ip:是时间戳Http Method Url..... 3、明确编码步骤: 3.1 取出ip,生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...
分类:
其他好文 时间:
2021-01-11 11:19:54
阅读次数:
0
阶段的划分 ? SparkContext对象包含有一个私有属性DAGScheduler阶段调度器,主要用于阶段的划分。在一个应用程序中,任务的提交都是从行动算子触发的。行动算子的方法内部会调用一个runJob方法,其中就有DAG调度器发挥运行Job的作用: dagScheduler.runJob(r ...
分类:
其他好文 时间:
2021-01-08 11:26:05
阅读次数:
0
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序。分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行 ...
分类:
编程语言 时间:
2021-01-08 10:56:23
阅读次数:
0