码迷,mamicode.com
首页 >  
搜索关键字:openfire spark    ( 7382个结果
spark动态资源(executor)分配
spark动态资源调整其实也就是说的executor数目支持动态增减,动态增减是根据spark应用的实际负载情况来决定。 开启动态资源调整需要(on yarn情况下) 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh ...
分类:其他好文   时间:2020-01-22 18:07:12    阅读次数:159
Spark 读取 HBase 数据
1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...
分类:其他好文   时间:2020-01-22 12:57:25    阅读次数:62
spark 大杂烩
累加器 序列化 宽窄依赖 窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女 宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...
分类:其他好文   时间:2020-01-22 12:44:35    阅读次数:80
Spark与Hadoop的比较
Spark是一种分布式计算框架,对标Hadoop的MapReduce;MapReduce适用于离线批处理(处理延迟在分钟级)而Spark既可以做离线批处理,也可以做实时处理(SparkStreaming) ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...
分类:其他好文   时间:2020-01-21 19:49:30    阅读次数:71
spark on yarn container分配极端倾斜
环境:CDH5.13.3 spark2.3 在提交任务之后,发现executor运行少量几台nodemanager,而其他nodemanager没有executor分配。 通过spark-shell模拟如下: 第一次尝试分配6个exeutor,具体如下 spark2-shell \ --driver ...
分类:其他好文   时间:2020-01-21 10:33:56    阅读次数:120
由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依 ...
分类:其他好文   时间:2020-01-20 09:27:00    阅读次数:74
Spark Streaming数据限流简述
  Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;    流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;    ...
分类:其他好文   时间:2020-01-19 22:12:37    阅读次数:148
IDEA开发java版本spark程序
如何去创建项目这里就不对讲了,可以参考 :https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac ...
分类:编程语言   时间:2020-01-19 19:04:13    阅读次数:84
sparkSessiontest
记事本内容: 打印结构: 结果展示: parquet的优势 支持列存储+嵌套数据格式+适配多个计算框架 节省表扫描时间和反序列的时间 压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快 加载数据:sparkSession.read.parquet(“/ ...
分类:其他好文   时间:2020-01-19 12:47:25    阅读次数:87
Spark union
比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...
分类:其他好文   时间:2020-01-19 11:04:30    阅读次数:97
7382条   上一页 1 ... 68 69 70 71 72 ... 739 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!