第一部分 分区简述(比如国家由省市来划分) 分区:map的输出经过partitioner分区进行下一步的reducer。一个分区对应一个reducer,就会使得reducer并行化处理任务。默认为1 1. Partitioner是partitioner的基类,如果需要定制partitioner也需要 ...
分类:
其他好文 时间:
2017-02-17 15:27:58
阅读次数:
698
同事实现了一个迪士尼的MPM雪模拟论文,我将其移植到Maya中论文题目是A material point method for snow simulation代码在这里:https://github.com/league1991/MpmMaya 插件利用了openVDB库,可以输出openVDB数据... ...
分类:
其他好文 时间:
2017-01-07 19:49:35
阅读次数:
205
原文链接 下载文件 1. 简介 本教程将介绍多种优化应用,以支持其在英特尔® 至强融核? 处理器上运行。 本教程中的优化流程分为三个部分: 第一部分介绍用于对代码进行矢量化(数据并行化)处理的通用优化技巧。 第二部分介绍如何添加线程层并行化,以充分利用处理器中的所有可用内核。 第三部分将通过在英特尔 ...
分类:
其他好文 时间:
2016-12-30 16:50:24
阅读次数:
1227
https://www.threadingbuildingblocks.org/docs/help/index.htm Parallelizing Data Flow and Dependency Graphs In addition to loop parallelism, the Intel® ...
分类:
其他好文 时间:
2016-12-20 07:19:48
阅读次数:
203
5.5 CPU指令流水线 一. 流水线 流水线(1)流水线:指令从取值到真正执行的过程划分成多个小步骤,cpu真正开始执行指令序列时,一步压一步的执行,减少其等待时间。(2)流水线级数越多,工作效率越高。intel处理器的流水线级数远超过嵌入式cpu的流水线级数(3)流水线的效率: a. 并非指令每 ...
分类:
其他好文 时间:
2016-12-18 18:37:48
阅读次数:
736
Map Reduce & YARN简介Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS)... ...
分类:
其他好文 时间:
2016-12-12 11:48:59
阅读次数:
202
在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GB ...
分类:
编程语言 时间:
2016-12-10 22:34:29
阅读次数:
268
在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF ...
分类:
其他好文 时间:
2016-12-09 19:21:46
阅读次数:
391
一篇讲得很好的hadoop实例,非常适合初学者学习hadoop。 本文转载自:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html,感谢作者虾皮的分享。 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意 ...
分类:
其他好文 时间:
2016-12-05 01:57:43
阅读次数:
183
超标量技术:核心,为了最大化指令的吞吐率,必须减少分支指令,ALU指令,load/store指令的开销。 超标量处理器可以是只并行化EX段的流水段。 可以具体细分为:1)指令流; 2)寄存器数据流; 3)存储器数据流; 指令流:一般用在超标量流水线的前端,即取指段和译码段。流水线机器只有在流水模式下 ...
分类:
其他好文 时间:
2016-12-04 13:40:37
阅读次数:
198