前言 本文将介绍 CUDA 编程的基本模式,所有 CUDA
程序都基于此模式编写,即使是调用库,库的底层也是这个模式实现的。模式描述 1. 定义需要在 device 端执行的函数。( 函数声明前加 _golbal_
关键字 ) 2. 在显存中为待运算的数据以及需要存放结果的变量开辟显存空间。(...
分类:
其他好文 时间:
2014-06-07 05:21:20
阅读次数:
269
NVIDIA刚刚强势发布了GeForce 337.88正式版显卡驱动,游戏性能大跃进(号称最多75%),还支持很有用的着色器缓存技术,AMD这边也没闲着,明天就会放出新的催化剂14.6 Beta测试版,亮点同样很多。
首先是“Eyefinity 3.0”,AMD独有宽域技术的第三代。好吧,AMD没有用3.0这个版本号来形容,但确实说是“多屏解决方案的第三个重大升级”。
多屏方面AMD一...
分类:
其他好文 时间:
2014-06-04 22:52:56
阅读次数:
359
#include
__global__ void childKernel(int i)
{
int tid = blockIdx.x*blockDim.x+threadIdx.x;
printf("parent:%d,child:%d\n",i,tid);
for(int j=i;j<i+10;j++)
{
printf(",%d",j);
}
printf("\n");...
分类:
其他好文 时间:
2014-06-03 03:58:15
阅读次数:
206
前言 在并发,多线程环境下,同步是一个很重要的环节。同步即是指进程/线程之间的执行顺序约定。
本文将介绍如何通过共享内存机制实现块内多线程之间的同步。 至于块之间的同步,需要使用到 global
memory,代价较为高昂,目前使用的情况也不多,就先不介绍了。块内同步函数:__syncthre...
分类:
其他好文 时间:
2014-05-31 11:25:25
阅读次数:
257
前言 编写 CUDA 程序真心不是个简单的事儿,调试也不方便,很费时。那么有没有一些现成的
CUDA 库来调用呢? 答案是有的,如 CUBLAS 就是 CUDA 专门用来解决线性代数运算的库。 本文将大致介绍如何使用 CUBLAS 库,同时演示一个使用
CUBLAS 库进行矩阵乘法的例子。CU...
分类:
其他好文 时间:
2014-05-30 11:29:24
阅读次数:
403
GPU 的硬件基本概念Nvidia的版本: 实际上在 nVidia 的 GPU
里,最基本的处理单元是所谓的 SP(Streaming Processor),而一颗 nVidia 的 GPU 里,会有非常多的 SP 可以同时做计算;而数个
SP 会在附加一些其他单元,一起组成一个 SM(Strea....
分类:
其他好文 时间:
2014-05-28 18:59:32
阅读次数:
292
ARM公司提供架构,芯片公司在此架构上生产芯片Tegra前几个是NVIDIA公司于2008年推出的基于ARM11构架通用处理器品牌。“NVIDIA(英伟达?)Tegra?(图睿?)”,tegra
4基于Cortex-A15架构4+1核。tegra 4 VS 高通骁龙800Geforce(中文一般称为...
分类:
其他好文 时间:
2014-05-26 07:05:06
阅读次数:
197
前言
并行就是让计算中相同或不同阶段的各个处理同时进行。目前有很多种实现并行的手段,如多核处理器,分布式系统等。本专题的文章将主要介绍使用 GPU
实现并行的方法。参考本专题文章前请务必搭建好 CUDA 开发平台,搭建方法可以参考上一篇文章。GPU 并行的优缺点 优点: 1. 显存具有更大...
分类:
其他好文 时间:
2014-05-26 02:13:36
阅读次数:
263
转载自:http://hc.csdn.net/contents/content_details?type=1&id=3411.展开循环如果提前知道了循环的次数,可以进行循环展开,这样省去了循环条件的比较次数。但是同时也不能使得kernel代码太大。
1 #include 2 using namesp...
分类:
其他好文 时间:
2014-05-23 23:56:27
阅读次数:
556
在编译CUDA程序的时候,会产生大量的警告信息的解决方法。...
分类:
其他好文 时间:
2014-05-18 14:05:38
阅读次数:
298