搜索关键字：scala bigdata 大數據 spark，搜索到10680个结果！码迷,mamicode.com！

在Scala 中 val 与 var 的区别（言简意赅小白易懂实例代码）

在Scala 中有两种弱变量 val 和 var 他们最主要的区别就是 val不能再赋值，var可以在生命周期中被多次赋值。 val: 1 scala> val msg=”Hello,world!”; 2 msg: java.lang.String = Hello,world! 3 scala> m ...

分类：其他好文时间：2020-01-20 19:24:35 阅读次数：102

由Kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享

pandas内存优化分享缘由最近在做Kaggle上的wiki文章流量预测项目，这里由于个人电脑配置问题，我一直都是用的Kaggle的kernel，但是我们知道kernel的内存限制是16G，如下：在处理数据过程中发现会超出，虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架，但是依 ...

分类：其他好文时间：2020-01-20 09:27:00 阅读次数：74

Spark Streaming数据限流简述

Spark Streaming对实时数据流进行分析处理，源源不断的从数据源接收数据切割成一个个时间间隔进行处理；流处理与批处理有明显区别，批处理中的数据有明显的边界、数据规模已知；而流处理数据流并没有边界，也未知数据规模； ...

分类：其他好文时间：2020-01-19 22:12:37 阅读次数：148

IDEA开发java版本spark程序

如何去创建项目这里就不对讲了，可以参考：https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac ...

分类：编程语言时间：2020-01-19 19:04:13 阅读次数：84

浅谈web自适应

转自：http://www.cnblogs.com/consta... 前言随着移动设备的普及，移动web在前端工程师们的工作中占有越来越重要的位置。移动设备更新速度频繁，手机厂商繁多，导致的问题是每一台机器的屏幕宽度和分辨率不一样。这给我们在编写前端界面时增加了困难，适配问题在当下显得越来越突出 ...

分类：Web程序时间：2020-01-19 18:58:46 阅读次数：95

在IDEA通过Maven构建Scala项目

首先在本地安装scala 我这里已经在本地安装好了。打开本地的IDEA 安装scala 创建新的项目选择scala的骨架在这里提醒一下，本地安装的maven记得添加阿里源，不然很多包就下载不了 <mirror> <id>alimaven</id> <name>aliyun maven</nam ...

分类：其他好文时间：2020-01-19 15:25:45 阅读次数：83

sparkSessiontest

记事本内容：打印结构：结果展示： parquet的优势支持列存储+嵌套数据格式+适配多个计算框架节省表扫描时间和反序列的时间压缩技术稳定出色,节省存储空间 Spark操作 Parquet文件比操作CSV等普通文件的速度更快加载数据：sparkSession.read.parquet(“/ ...

分类：其他好文时间：2020-01-19 12:47:25 阅读次数：87

Spark union

比如两个rdd 两个分区合并去他们的并集 intersection 去数据的交集 subtract去差集 mappartition与map像是遍历的单位是每个pation分区的数据进来的是iterrter是迭代器 distinct去重(map+reducebykey+map) cogroup 作用在 ...

分类：其他好文时间：2020-01-19 11:04:30 阅读次数：97

[Write-up]BSides-Vancouver

关于 1. "下载链接" 2. 目标：拿到root用户目录下的flag.txt 3. 全程无图！信息收集 1. 因为虚拟机网络是设置Host only，所以是vmnet1这张网卡，IP段为192.168.7.1/24 2. 3. 从上面可以看到服务器开放了21端口，对应的是FTP服务，还是可以匿名 ...

分类：其他好文时间：2020-01-19 09:54:24 阅读次数：107

Spark Shuffle

Shuffle基本流程 spark shuffle从总体来讲分成两部分，shuffle write和shuffle reader，如下图所示，看到这里，就明白了为什么spark性能优化的时候建议宁可broadcast也不要shuffle，broadcast好歹还是内存操作，网络上大一点压力（每个节点... ...

分类：其他好文时间：2020-01-19 09:27:09 阅读次数：63

共10680条上一页 1 ... 100 101 102 103 104 ... 1068 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)