整理几年前写的文章,或许对初学CUDA编程的朋友有帮助:CUDA 线程执行模型分析(一)招兵------ GPU的革命CUDA 线程执行模型分析(二)大军未动粮草先行------GPU的革命CUDA硬件实现分析(一)------安营扎寨-----GPU的革命CUDA硬件实现分析(二)------规行矩步------GPU的革命CUDA编程接口(一)------一十八般武器------GPU的革命C...
分类:
其他好文 时间:
2014-12-25 00:16:48
阅读次数:
164
原文链接:http://microsoft.github.io/Win2D/html/Introduction.htm介绍Win2D是一个易用的Windows Runtime API,它使用GPU加速进行即时2D图形渲染。它提供给C#和C++开发人员进行编写Windows 8.1和Windows P...
众所周知,Gpu加速技术对图像处理具有很大的影响,在前面的博客中通过对比验证了Gpu加速技术对图像滤波的高效率。但是Gpu技术并不是万能的,本文通过比较发现Gpu计算直方图的效率并没有传统计算方法效率高。下面表格是对比结果,时间是通过运行20次求平均值而得,后面给出相应的比较代码。
Gpu与Cpu计算直方图效率对比
方式
Cpu内存
Gpu内存
效率
0.855...
分类:
其他好文 时间:
2014-12-19 17:31:04
阅读次数:
287
从塞班到安卓,从单核到双核,从四核到八核,从3G到4G,从32位64位,手机技术的发展总是日新月异,最近几年华为手机处理器也得到了的肯定,现在华为主要竞争对手就是苹果和三星了,那么下面看看华为海思推出了哪些处理器:海思 K3V2 ,是2012年业界体积最小处理器。K3V2有四个A9内核,16个GPU...
分类:
移动开发 时间:
2014-12-18 16:49:49
阅读次数:
218
前一张已经输出了一个背景为紫色的屏幕,这一节的目标是在该屏幕上输出一个三角形。下面将逐一介绍建立一个三角形的过程。
一个三角形有三个点,叫做顶点。三个点的不同的集合可以建立不同的三角形。能让GPU创建一个三角形,必须将三个顶点的位置告诉它。下面是一个2D的例子。
怎么将三个点的数据传给GPU?
在d3d10中,顶点数据被存在一个缓存资源中。但是应该申请多大的缓存,这就是接下来...
分类:
其他好文 时间:
2014-12-18 15:19:43
阅读次数:
324
CUDA和OpenCL异同点比较 一、概述 对CUDA和opencl有一定的编程经验,但是细心的人可以发现,OPENCL就是仿照CUDA来做的。既然两个GPU的编程框架如此相像,那么他们究竟有什么不同呢?下面就一一道来。 二、数据并行的模型OpenCL采用的数据并行模型就是采用CUDA的数据并行模型。下面的表格反应了CUDA和opencl并行模型之间的映射关系。 OpenCL CUDA...
分类:
其他好文 时间:
2014-12-16 22:44:24
阅读次数:
466
批渲染(Batch)
batch render 是大部分引擎提高渲染效率的方法,基本原理就是通过将一些渲染状态一致的物体合成一个大物体,一次提交给gpu进行绘制,如果不batch的话,就要提交给很多次,这可以显著的节省drawcall,实际上这主要节省了cpu的时间,cpu从提交多次到提交一次,对gpu来说也不用多次切换渲染状态。当然能batch的前提一定是渲染状态一致的一组物体。
Unity...
分类:
编程语言 时间:
2014-12-15 13:47:08
阅读次数:
221
注:此页是一个引导的页面,后续将会分7个主要教程和一些高级的例子,一步一步讲解深度学习。
这里的教程将为大家提供最重要的几个深度学习算法,并且也会告知如何去用theano来运行它们。theano是一个python类库,它能够帮助大家容易的去写深度算法模型,并且可以让大家能够在GPU上运行这些算法
学习这些教程之前,需要熟悉下先热下身,这里是theano的基础教程,学完之后,再看下这个东...
分类:
其他好文 时间:
2014-12-14 12:00:41
阅读次数:
624
前面介绍了基本的Cuda编程的相关知识,那么这一篇在此基础之上来看看GPU在处理数据计算上的高效能,我们拿矩阵相乘来作为例子。
1.CPU上执行矩阵相乘以及性能。
2.GPU上执行矩阵相乘以及性能。
3.性能对比。...
分类:
其他好文 时间:
2014-12-12 23:39:16
阅读次数:
592
但为什么在某些手机上(Nexus 4)没这个问题,在这台手机上就出问题了呢?...
分类:
数据库 时间:
2014-12-12 16:40:01
阅读次数:
179