搜索关键字：spark history，搜索到9960个结果！码迷,mamicode.com！

spark：distinct算子实现原理

distinct的底层使用reducebykey巧妙实现去重逻辑 //使用reduceByKey或者groupbykey的shuffle去重思想rdd.map(key=>(key,null)).reduceByKey((key,value)=>key) .map(_._1) ...

分类：其他好文时间：2020-05-17 19:29:13 阅读次数：147

Spark 数据分析调优（一）

Apache Spark Job 调优以提高性能（一）假设你已经清楚了Spark 的 RDD 转换，Action 等内容。并且已经知道用web UI来理解为什么Job要花这么长时间时，Job、stage和task 也很清楚了。如果不清楚可以看我的视频（。。。。）在本文中，您将了解Spark程序 ...

分类：其他好文时间：2020-05-17 17:50:13 阅读次数：102

ClickHouse奇技淫巧系列之SQL查文件

history | awk '{print $1"\t"$2}' | clickhouse-client \ --query="SELECT shell, count() AS c FROM history \ GROUP BY shell ORDER BY c DESC limit 10 " \ ...

分类：数据库时间：2020-05-16 20:49:03 阅读次数：92

[随笔]VSCode Remote-ssh+云主机搭建pySpark学习环境

最近spark上机练习比较多，原先采用了虚拟机的方式做练习第一机器性能比较差，本地体验不好第二用vscode比较多，轻量好用又熟悉所以周末抽时间把环境布到开发机上去构建流程: 安装vscode 安装msys2/mingw等模拟shell环境，安装ssh相关组件这个可以偷个懒直接装 git ...

分类：其他好文时间：2020-05-16 18:39:35 阅读次数：133

Vue Router 中模式选择

一、前言在以往的项目中路由模式都是使用默认的 hash，最近的一个项目中用到了 history 模式，但是出现一些问题。在这里对着两种模式做一个对比。二、hash 模式在 Vue Router 中默认使用的是 hash 模式，所以在使用这种模式是不需要设置的，直接默认就行。 const rou ...

分类：其他好文时间：2020-05-16 17:01:28 阅读次数：51

Kafka学习之路

基础概念 Kafka最初是由Linkedin公司开发，是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，可以实时的处理大量数据以满足各种需求场景：基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎、web/nginx日志、访问日志、消息服 ...

分类：其他好文时间：2020-05-16 00:14:31 阅读次数：73

解决 iframe 后退不是主页面后退（浏览器 history）问题

前言：项目中的主页面里有 iframe，切换 iframe 的 src 地址之后，再点浏览器的回退之后，会导致 iframe 里面回退，而不是主页面回退。问题浏览器机制的原因，在 iframe 导航变化后手动点击浏览器的后退按钮也依然只是后退 iframe 中的导航。但是我只想让父页面后退，并 ...

分类：其他好文时间：2020-05-15 18:07:36 阅读次数：202

在CDH中安装Spark2

第一步，需要在CDH上安装Spark 2，由于我的CDH是5.15.x，只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。总结下，需要手动下载cds文件上传到CM服务 ...

分类：其他好文时间：2020-05-15 13:51:05 阅读次数：77

ModuleNotFoundError: No module named 'pyspark' 解决方案

出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中：由于我的Windows中没有装Spark，所以直接安装了Python的第三方包，pycharm中直接引用就行了 pip install pyspark Linux中：我的是Ubuntu18.04，自己在里面 ...

分类：其他好文时间：2020-05-15 09:58:55 阅读次数：408

初识 IoTdb 时间序列数据库（一）

概述： IoTDB 是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点，完美对接 Hadoop 与 Spark 生态，适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。安装环境： 1，安装前需要保证设备上配有JDK>=1.8的运行环境，并 ...

分类：数据库时间：2020-05-14 19:32:44 阅读次数：540

共9960条上一页 1 ... 49 50 51 52 53 ... 996 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)