##SparkSQL 是什么 ##SparkSQL 初体验 ##Catalyst 优化器 ##Dataset 的特点 ##DataFrame 的作用和常见操作 ##Dataset 和 DataFrame 的异同 ...
分类:
数据库 时间:
2021-01-18 11:03:21
阅读次数:
0
Celery支持不同的并发和序列化的手段 并发:Prefork, Eventlet, gevent, threads/single threaded 序列化:pickle, json, yaml, msgpack. zlib, bzip2 compression, Cryptographic mes ...
分类:
其他好文 时间:
2021-01-18 10:52:48
阅读次数:
0
user nginx; #使用linux用户分组执行nginx worker_processes 4;#nginx 启动后的进程数,通常跟服务器的内核挂钩 如:2核4进程 01 10 01 10; 4核2进程 0101 1010;worker_cpu_affinity 0001 0010 0100 ...
分类:
其他好文 时间:
2021-01-18 10:37:56
阅读次数:
0
Java 并发 Java 并发 一、使用线程 实现 Runnable 接口 实现 Callable 接口 继承 Thread 类 实现接口 VS 继承 Thread 二、基础线程机制 Executor Daemon sleep() yield() 三、中断 InterruptedException ...
分类:
编程语言 时间:
2021-01-16 11:56:57
阅读次数:
0
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:
其他好文 时间:
2021-01-15 12:15:21
阅读次数:
0
user root; worker_processes 1; error_log /var/log/nginx/error.log warn; pid /var/run/nginx.pid; events { #use epoll; worker_connections 65535; } http ...
分类:
系统相关 时间:
2021-01-13 10:45:25
阅读次数:
0
任务的划分 ? DAGScheduler类的handleJobSubmitted方法中,有一个提交阶段的的方法: var finalStage: ResultStage = null …… finalStage = createResultStage(finalRDD, func, partitio ...
分类:
其他好文 时间:
2021-01-12 10:29:01
阅读次数:
0
一、案例: 1、明确需求: 在访问日志中,统计独立ip数量TOP10 2、查看数据结构: ip:是时间戳Http Method Url..... 3、明确编码步骤: 3.1 取出ip,生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 ...
分类:
其他好文 时间:
2021-01-11 11:19:54
阅读次数:
0
今天有一个接口20s 才能展示出来数据,这怎么可以领导直接让我去处理这个接口,处理不出来就不要下班了 我心中一紧 赶紧去看这是哪个垃圾写出来的代码 浏览了一下代码发现 需求是这样子的 后台请求一个地址 返回了一个list集合,我拿着这个list 集合对象的主键,再去调用查看详情接口,拼接到原来的对象 ...
分类:
编程语言 时间:
2021-01-11 10:36:24
阅读次数:
0
阶段的划分 ? SparkContext对象包含有一个私有属性DAGScheduler阶段调度器,主要用于阶段的划分。在一个应用程序中,任务的提交都是从行动算子触发的。行动算子的方法内部会调用一个runJob方法,其中就有DAG调度器发挥运行Job的作用: dagScheduler.runJob(r ...
分类:
其他好文 时间:
2021-01-08 11:26:05
阅读次数:
0