本章介绍了Spark用于数据处理的核心抽象概念,具有弹性的分布式数据集(RDD)。一个RDD仅仅是一个分布式的元素集合。在Spark中,所有工作都表示为创建新的RDDs、转换现有的RDDs,或者调用RDDs上的操作来计算结果。在底层,Spark自动将数据中包含的数据分发到你 ...
分类:
其他好文 时间:
2018-02-22 21:35:41
阅读次数:
208
Petya is the most responsible worker in the Research Institute. So he was asked to make a very important experiment: to melt the chocolate bar with a ...
分类:
其他好文 时间:
2018-02-09 23:53:07
阅读次数:
244
Understanding the Parallelism of a Storm Topology What makes a running topology: worker processes, executors and tasks 在一个Strom集群中,实际运行一个topology有三个主要 ...
分类:
其他好文 时间:
2018-02-03 12:53:56
阅读次数:
161
MySQL 5.7开启Enhanced Multi-Threaded Slave配置: #slave slave-parallel-type=LOGICAL_CLOCK slave-parallel-workers=16 master_info_repository=TABLE relay_log_... ...
分类:
数据库 时间:
2018-01-27 13:49:22
阅读次数:
299
parallel 命令 cat bigfile.txt | parallel --pipe grep 'pattern' gzip、sed、awk、grep、wc命令都可以通过paralle加速。 参考: http://blog.chinaunix.net/uid-20662820-id-40237 ...
分类:
其他好文 时间:
2018-01-26 22:50:39
阅读次数:
181
如果用Jenkins中的 pipeline 的话, 这个可以用jenkins pipline语法帮忙生成, 1. 同时 build 多个 stage 2. 使用 parallel 平行处理 将多个 stage 视为同一个 node 会同时启动,会等待较长的 stage 完成后才统一返回结果 3. 在 ...
分类:
其他好文 时间:
2018-01-20 18:51:00
阅读次数:
1750
1.查看该分区有无数据 2.如果分区表里有主键,自增列,删掉 3.创建表,保证索引,非空约束与分区表一致 4.分区表和非分区表 交换分区 注意:要交换的分区表中不能含有自增列,主键,否则可能无法交换分区 ...
分类:
数据库 时间:
2018-01-20 00:22:18
阅读次数:
375
在R中获得快速运行代码的方法 使用向量化运算 R语言的并行计算可以用parallel和foreach包 加快R运行速度还可以使用cmpfun()函数即字节码编译器 再者就是在R中调用C或C++ 同时还可以利用Rprof()来寻找代码的瓶颈 利用分块或者R包来管理内存 ...
分类:
编程语言 时间:
2018-01-19 22:22:24
阅读次数:
311
Series-Parallel Networks https://vjudge.net/problem/UVA-10253 如果用一个节点表示串联/并联操作,用一棵树表示每一个串并联网络,要求一个节点代表的串并联网络全部按照这个节点表示的方式(串联/并联)拆开成为他的子节点 不难发现除了叶子节点为单 ...
分类:
Web程序 时间:
2018-01-19 11:33:06
阅读次数:
207
1 前言 GC(Garbage Collect)是jvm对于内存管理的核心功能,正是因为它才让Java程序员从内存释放的苦海中脱离出来,所以作为一个程序员都有必要去了解一下他的原理。 说一句题外话,我曾经被问到GC的具体实现,那个时候我就知道一些基本的思想,结果被人鄙视了。对于这个问题我到现在仍保留 ...
分类:
其他好文 时间:
2018-01-18 17:04:30
阅读次数:
142