码迷,mamicode.com
首页 >  
搜索关键字:cuda并行计算    ( 8个结果
浅谈 OpenGL 中相关阻塞问题
昨天我遇到一个问题,问题如下: 我使用了延迟渲染,我的渲染流程是:Pass1 --> CUDA并行计算 -->Pass2 CUDA并行计算中需要使用Pass1渲染生成的两张纹理,然而我在GPU端使用CUDA计算时发现纹理为空(数据全是0值),但是如果将两张纹理的数据传回CPU端,打印出来是有值的,且 ...
分类:其他好文   时间:2020-01-06 21:22:45    阅读次数:77
【GPU加速系列】PyCUDA(一):上手简单操作
PyCUDA 可以通过 Python 访问 Navidia 的 CUDA 并行计算 API。 具体介绍和安装可以参考 PyCUDA 官网文档和 pycuda PyPI。 本文涵盖的内容有: 本文示例在 GPU 环境下,使用 Jupyter Notebook 导入了以下包: 输出: 查询 GPU 信息 ...
分类:其他好文   时间:2019-09-13 22:08:33    阅读次数:450
cuda并行计算的几种模式
1 #include "cuda_runtime.h" 2 #include "device_launch_parameters.h" 3 #include <stdio.h> 4 #include <time.h> 5 #include <stdlib.h> 6 7 #define MAX 120 ...
分类:其他好文   时间:2016-10-06 22:16:51    阅读次数:282
选择Nvidia显卡还是ATI显卡
粗略来讲: Nvidia的Geforce系列面向游戏,注重速度,而在纹理细节(如抗锯齿)方面欠佳; Nvidia的Quadro系列显卡面向设计,对三维建模软件比如solid3d, autocad等进行了软硬件优化; Nvidia的Tesla系列显卡面向CUDA并行计算,堆砌巨量显示核心,但不输出图像
分类:其他好文   时间:2016-02-16 01:13:08    阅读次数:235
共享内存
共享内存实际上是可受用户控制的一级内存。每个SM中的一级内存与共享内存共享一个64KB的内存段。在开普勒架构的设备中,根据应用程序的需要,每一个线程块可以配置为16KB的一级内存或共享内存;而在费米架构的设备中,可以根据喜好选择16KB或48KB的一级内存或共享内存。早期的费米架构的硬件(计算能力为1.X)中只有固定的16KB共享内存而没有以及缓存。共享内存的延迟极低,大约有1.5TB/s的带宽,远远高于全局内存的190GB/s,但是它的速度只有寄存器的十分之一。 在实际的情况中,低端显卡全...
分类:其他好文   时间:2015-09-02 00:42:40    阅读次数:237
opencv+cuda内存泄露错误
在编写的模版中,利用opencv进行拷贝图像data时,报错如下: Unhandled exception at 0x74dec42d in XXXX_CUDA.exe: Microsoft C++ exception: cv::Exception at memory location 0x0017f878. 定位到错误在: cvReleaseImage( &copy_y );也就是说释放图像数据是时候,发生内存非法读写; template void grad_y( const IplI...
分类:其他好文   时间:2015-08-31 13:40:16    阅读次数:161
Share memory中bank conflict问题
Share memory是片上资源,生命周期是整个block中,它的数据读写十分快,有1个cycle latency。在Share memory中,经常存在bank conflict问题,如果没有bank conflict问题,它的数据读写可以和片上的寄存器(Register)一样快。因此,我们需要尽量减少bank conflicts....
分类:其他好文   时间:2015-05-21 09:07:59    阅读次数:222
【CUDA并行编程之八】Cuda实现Kmeans算法
本文主要介绍如何使用CUDA并行计算框架编程实现机器学习中的Kmeans算法,Kmeans算法的详细介绍在这里,本文重点在并行实现的过程。...
分类:编程语言   时间:2015-02-01 21:54:01    阅读次数:219
8条  
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!