码迷,mamicode.com
首页 >  
搜索关键字:scala bigdata 大數據 spark    ( 10680个结果
在Scala 中 val 与 var 的区别(言简意赅 小白易懂 实例代码)
在Scala 中有两种弱变量 val 和 var 他们最主要的区别就是 val不能再赋值,var可以在生命周期中被多次赋值。 val: 1 scala> val msg=”Hello,world!”; 2 msg: java.lang.String = Hello,world! 3 scala> m ...
分类:其他好文   时间:2020-01-20 19:24:35    阅读次数:102
由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享
pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依 ...
分类:其他好文   时间:2020-01-20 09:27:00    阅读次数:74
Spark Streaming数据限流简述
  Spark Streaming对实时数据流进行分析处理,源源不断的从数据源接收数据切割成一个个时间间隔进行处理;    流处理与批处理有明显区别,批处理中的数据有明显的边界、数据规模已知;而流处理数据流并没有边界,也未知数据规模;    ...
分类:其他好文   时间:2020-01-19 22:12:37    阅读次数:148
IDEA开发java版本spark程序
如何去创建项目这里就不对讲了,可以参考 :https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac ...
分类:编程语言   时间:2020-01-19 19:04:13    阅读次数:84
浅谈web自适应
转自:http://www.cnblogs.com/consta... 前言 随着移动设备的普及,移动web在前端工程师们的工作中占有越来越重要的位置。移动设备更新速度频繁,手机厂商繁多,导致的问题是每一台机器的屏幕宽度和分辨率不一样。这给我们在编写前端界面时增加了困难,适配问题在当下显得越来越突出 ...
分类:Web程序   时间:2020-01-19 18:58:46    阅读次数:95
在IDEA通过Maven构建Scala项目
首先在本地安装scala 我这里已经在本地安装好了。 打开本地的IDEA 安装scala 创建新的项目 选择scala的骨架 在这里提醒一下,本地安装的maven记得添加阿里源,不然很多包就下载不了 <mirror> <id>alimaven</id> <name>aliyun maven</nam ...
分类:其他好文   时间:2020-01-19 15:25:45    阅读次数:83
sparkSessiontest
记事本内容: 打印结构: 结果展示: parquet的优势 支持列存储+嵌套数据格式+适配多个计算框架 节省表扫描时间和反序列的时间 压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快 加载数据:sparkSession.read.parquet(“/ ...
分类:其他好文   时间:2020-01-19 12:47:25    阅读次数:87
Spark union
比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...
分类:其他好文   时间:2020-01-19 11:04:30    阅读次数:97
[Write-up]BSides-Vancouver
关于 1. "下载链接" 2. 目标:拿到root用户目录下的flag.txt 3. 全程无图! 信息收集 1. 因为虚拟机网络是设置Host only,所以是vmnet1这张网卡,IP段为192.168.7.1/24 2. 3. 从上面可以看到服务器开放了21端口,对应的是FTP服务,还是可以匿名 ...
分类:其他好文   时间:2020-01-19 09:54:24    阅读次数:107
Spark Shuffle
Shuffle基本流程 spark shuffle从总体来讲分成两部分,shuffle write和shuffle reader,如下图所示,看到这里,就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle,broadcast好歹还是内存操作,网络上大一点压力(每个节点... ...
分类:其他好文   时间:2020-01-19 09:27:09    阅读次数:63
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!