http://www.cnblogs.com/traceorigin/archive/2013/04/11/3015482.htmlCUDA存储器类型:每个线程拥有自己的register and loacal memory;每个线程块拥有一块shared memory;所有线程都可以访问global...
分类:
其他好文 时间:
2015-06-03 11:26:14
阅读次数:
171
Avoiding Branch Divergence有时,控制流依赖于thread索引。同一个warp中,一个条件分支可能导致很差的性能。通过重新组织数据获取模式可以减少或避免warp divergence(该问题的解释请查看warp解析篇)。The Parallel Reduction Probl...
分类:
其他好文 时间:
2015-06-03 00:38:42
阅读次数:
150
Exposing Parallelism这部分主要介绍并行分析,涉及掌握nvprof的几个metric参数,具体的这些调节为什么会影响性能会在后续博文解释。代码准备下面是我们的kernel函数sumMatrixOnGPUD:__global__ void sumMatrixOnGPU2D(float...
分类:
其他好文 时间:
2015-06-02 01:36:43
阅读次数:
282
1、Office Professional Plus 2010: 6QFDX-PYH2G-PPYFD-C7RJM-BBKQ8 BDD3G-XM7FB-BD2HM-YK63V-VQFDK 2、Office Professional Plus 2010:(VL) MKCGC-FBXRX-BMJX6-F3...
分类:
其他好文 时间:
2015-06-02 00:04:46
阅读次数:
133
在V1.0的基础上改变了排序方式并对部分并行代码进行了优化#include "cuda_runtime.h"#include "device_launch_parameters.h"#include #include #include #include #include #include #incl...
分类:
其他好文 时间:
2015-06-01 22:05:48
阅读次数:
142
接触一下OpenCV里一个之前没有接触的模块:GPU。目前,OpenCV中已提供了许多GPU函数,直接使用OpenCV提供的GPU模块,可以完成大部分图像处理的加速操作。该方法的优点是使用简单,利用GpuMat管理CPU与GPU之间的数据传输,而且不需要关注内核函数调用参数的设置。...
分类:
其他好文 时间:
2015-05-31 23:23:39
阅读次数:
150
在stackoverflow上找到解决方案的:http://stackoverflow.com/questions/21329899/vs2013-professional-local-64-bit-debugging-msvsmon-issuehttp://stackoverflow.com/qu...
分类:
其他好文 时间:
2015-05-31 13:45:03
阅读次数:
1571
Warp逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。Warps and Thread Blockswarp是SM的基本执行单元。一个warp包含32个并行thread,这32个thread执行于S...
分类:
其他好文 时间:
2015-05-31 01:19:43
阅读次数:
185
GPU架构SM(Streaming Multiprocessors)是GPU架构中非常重要的部分,GPU硬件的并行性就是由SM决定的。以Fermi架构为例,其包含以下主要组成部分:CUDA coresShared Memory/L1CacheRegister FileLoad/Store Units...
分类:
其他好文 时间:
2015-05-30 07:04:54
阅读次数:
749
You are a professional robber planning to rob houses along a street. Each house has a certain amount of money stashed, the only constraint stopping yo...
分类:
其他好文 时间:
2015-05-30 01:48:23
阅读次数:
101