recommend: run this in python2.7 output 2019-10-02 17:21:18 ...
分类:
其他好文 时间:
2019-10-02 14:53:06
阅读次数:
88
一、概述 优化前我们需要知道hadoop适合干什么活,适合什么场景,在工作中,我们要知道业务是怎样的,能才结合平台资源达到最有优化。除了这些我们当然还要知道mapreduce的执行过程,比如从文件的读取,map处理,shuffle过程,reduce处理,文件的输出或者存储。在工作中,往往平台的参数都 ...
分类:
其他好文 时间:
2019-10-01 10:01:36
阅读次数:
108
[TOC] numpy模块 numpy模块:用来做 数据分析 ,对numpy数组(既有行又有列) 矩阵进行科学运算 在使用的时候,使用方法与其他的模块有一点不一样 具体的使用方法 1.创建numpy数组 》可变 2.数组的维数 matplotlib模块 matplotlib模块:画图 1.条形图 2 ...
分类:
其他好文 时间:
2019-09-29 22:03:54
阅读次数:
84
1:在Windows下配置Hadoop的运行环境 第一步:将hadoop2.7.5文件夹拷贝到一个没有中文没有空格的路径下面 第二步:在windows上面配置hadoop的环境变量: HADOOP_HOME,并将%HADOOP_HOME%\bin添加到path中 第三步:把hadoop2.7.5文件 ...
D Go Latin 签到题,按题意模拟就可以了,容易看漏情况,小心一点。 cpp include using namespace std; typedef long long ll; char s[1000005]; int main() { ifdef Yinku freopen("Yinku. ...
分类:
其他好文 时间:
2019-09-22 02:03:04
阅读次数:
109
numpy import numpy as np 向量运算 shop_price = [30, 20, 15, 40] shop_num = [2, 3, 1, 4] np_shop_price = np.array(shop_price) np_shop_num = np.array(shop_n ...
分类:
其他好文 时间:
2019-09-20 16:28:53
阅读次数:
69
前言:中秋节有事外加休息了一天,今天晚上重新拾起Hadoop,但感觉自己有点烦躁,不知后续怎么选择学习Hadoop的方法。 干脆打开电脑,决定: 1、先将Hadoop的MapReduce和Yarn基本原理打扎实了再说,网上说的边画图边记得效果好点; 2、有时间就多看看Java和Python的基础知识 ...
分类:
其他好文 时间:
2019-09-16 09:47:09
阅读次数:
137
不同点在于,图一是内存缓冲区满了写入到磁盘,还没有进行sort操作 spark 数据倾斜优化: 1. 使用etl预处理数据 (为了防止某些key数据量过大的问题, 对数据进行提前聚合或和其他的表进行join操作)指标不治本,还会出现数据的倾斜问题 2.过滤少数导致倾斜的 key ,临界值,极点的问题 ...
分类:
其他好文 时间:
2019-08-31 16:49:09
阅读次数:
90
Map Reduce是一个计算框架。Map函数发送到所有含有涉及数据的节点上运行,而Reduce之运行在多台主机上用作收集map结果用,reduce数量取决于reduce收集函数分了几个组,只在几个几个节点上运行。 shuffle机制:分组排序 MapReduce执行过程 map进程数量基于切片思想 ...
分类:
其他好文 时间:
2019-08-26 00:15:36
阅读次数:
87