在Scala 中有两种弱变量 val 和 var 他们最主要的区别就是 val不能再赋值,var可以在生命周期中被多次赋值。 val: 1 scala> val msg=”Hello,world!”; 2 msg: java.lang.String = Hello,world! 3 scala> m ...
分类:
其他好文 时间:
2020-01-20 19:24:35
阅读次数:
102
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依 ...
分类:
其他好文 时间:
2020-01-20 09:27:00
阅读次数:
74
Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理; 流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模; ...
分类:
其他好文 时间:
2020-01-19 22:12:37
阅读次数:
148
如何去创建项目这里就不对讲了,可以参考 :https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac ...
分类:
编程语言 时间:
2020-01-19 19:04:13
阅读次数:
84
转自:http://www.cnblogs.com/consta... 前言 随着移动设备的普及,移动web在前端工程师们的工作中占有越来越重要的位置。移动设备更新速度频繁,手机厂商繁多,导致的问题是每一台机器的屏幕宽度和分辨率不一样。这给我们在编写前端界面时增加了困难,适配问题在当下显得越来越突出 ...
分类:
Web程序 时间:
2020-01-19 18:58:46
阅读次数:
95
首先在本地安装scala 我这里已经在本地安装好了。 打开本地的IDEA 安装scala 创建新的项目 选择scala的骨架 在这里提醒一下,本地安装的maven记得添加阿里源,不然很多包就下载不了 <mirror> <id>alimaven</id> <name>aliyun maven</nam ...
分类:
其他好文 时间:
2020-01-19 15:25:45
阅读次数:
83
记事本内容: 打印结构: 结果展示: parquet的优势 支持列存储+嵌套数据格式+适配多个计算框架 节省表扫描时间和反序列的时间 压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快 加载数据:sparkSession.read.parquet(“/ ...
分类:
其他好文 时间:
2020-01-19 12:47:25
阅读次数:
87
比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...
分类:
其他好文 时间:
2020-01-19 11:04:30
阅读次数:
97
关于 1. "下载链接" 2. 目标:拿到root用户目录下的flag.txt 3. 全程无图! 信息收集 1. 因为虚拟机网络是设置Host only,所以是vmnet1这张网卡,IP段为192.168.7.1/24 2. 3. 从上面可以看到服务器开放了21端口,对应的是FTP服务,还是可以匿名 ...
分类:
其他好文 时间:
2020-01-19 09:54:24
阅读次数:
107
Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点... ...
分类:
其他好文 时间:
2020-01-19 09:27:09
阅读次数:
63