搜索关键字：spark streaming，搜索到7556个结果！码迷,mamicode.com！

寒假学习（二）spark学习

spark的安装很简单（教程） 1. 计算级数请用脚本的方式编程计算并输出下列级数的前 n 项之和 Sn，直到 Sn 刚好大于或等于 q 为止，其中 q 为大于 0 的整数，其值通过键盘输入。例如，若 q 的值为 50.0 ，则输出应为： Sn=50.416695 。请 ...

分类：其他好文时间：2020-01-22 20:10:05 阅读次数：124

【2020/1/18】寒假自学——学习进度报告4

上次是安装完成了，这次就来试试Spark的基本操作。首先是运行Spark自带的实例SparkPi。在配置好环境变量的时候可以直接运行，但可以看到虽然运行成功但信息太过复杂，所以检索之后—— 虽然计算结果有所偏差，但多少能证明Spark的计算能力可以使用。第二个运行的就是和计算能力没太大关联的W ...

分类：其他好文时间：2020-01-22 18:22:11 阅读次数：53

spark动态资源（executor）分配

spark动态资源调整其实也就是说的executor数目支持动态增减，动态增减是根据spark应用的实际负载情况来决定。开启动态资源调整需要（on yarn情况下） 1.将spark.dynamicAllocation.enabled设置为true。意思就是启动动态资源功能 2.将spark.sh ...

分类：其他好文时间：2020-01-22 18:07:12 阅读次数：159

Spark 读取 HBase 数据

1、pom.xml 版本号 <properties> <hbase.version>2.2.2</hbase.version> <hadoop.version>2.10.0</hadoop.version> <spark.version>2.4.2</spark.version> </propert ...

分类：其他好文时间：2020-01-22 12:57:25 阅读次数：62

spark 大杂烩

累加器序列化宽窄依赖窄依赖指的是每一个父RDD的Partition最多被子RDD的一个Partition使用,窄依赖我形象的比喻为独生子女宽依指的是多个子RDD的Partition会依赖同一个父RDD的 Partition,会引起shuffle.总结:宽依我们形象的比喻为超生 DAG DAG ...

分类：其他好文时间：2020-01-22 12:44:35 阅读次数：80

Spark与Hadoop的比较

Spark是一种分布式计算框架，对标Hadoop的MapReduce；MapReduce适用于离线批处理（处理延迟在分钟级）而Spark既可以做离线批处理，也可以做实时处理（SparkStreaming） ①Spark集批处理、实时流处理、交互式查询、机器学习与图计算一体 ②Spark实现了一种分布 ...

分类：其他好文时间：2020-01-21 19:49:30 阅读次数：71

spark on yarn container分配极端倾斜

环境：CDH5.13.3 spark2.3 在提交任务之后，发现executor运行少量几台nodemanager，而其他nodemanager没有executor分配。通过spark-shell模拟如下：第一次尝试分配6个exeutor,具体如下 spark2-shell \ --driver ...

分类：其他好文时间：2020-01-21 10:33:56 阅读次数：120

HTTP Content-type

文件扩展名Content-Type(Mime-Type)文件扩展名Content-Type(Mime-Type) .*（二进制流，不知道下载文件类型） application/octet-stream .tif image/tiff .001 application/x-001 .301 appl ...

分类：Web程序时间：2020-01-20 14:27:11 阅读次数：109

由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享

pandas内存优化分享缘由最近在做Kaggle上的wiki文章流量预测项目，这里由于个人电脑配置问题，我一直都是用的Kaggle的kernel，但是我们知道kernel的内存限制是16G，如下：在处理数据过程中发现会超出，虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架，但是依 ...

分类：其他好文时间：2020-01-20 09:27:00 阅读次数：74

Spark Streaming数据限流简述

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模； ...

分类：其他好文时间：2020-01-19 22:12:37 阅读次数：148

共7556条上一页 1 ... 73 74 75 76 77 ... 756 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)