CUDA用于并行计算非常方便,但是GPU与CPU之间的交互,比如传递参数等相对麻烦一些。在写CUDA核函数的时候形参往往会有很多个,动辄达到10-20个,如果能够在CPU中提前把数据组织好,比如使用二维数组,这样能够省去很多参数,在核函数中可以使用二维数组那样去取数据简化代码结构。当然使用二维数据会 ...
分类:
编程语言 时间:
2017-11-12 14:13:44
阅读次数:
332
前言 Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive一 ...
分类:
其他好文 时间:
2017-11-05 15:08:00
阅读次数:
161
一、关于Pig:别以为猪不能干活 1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编 ...
分类:
其他好文 时间:
2017-11-03 13:00:23
阅读次数:
163
一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行计算的编程模型,它 ...
分类:
其他好文 时间:
2017-11-03 11:11:29
阅读次数:
227
1.Cuda的编程模型 a. GPU(图形处理器)早期主要应用于图形渲染,使得应用程序能实现更强的视觉效果。(并行运算) CUDA是由英伟达为他们公司GPU创立的一个并行计算平台和编程模型。CUDA包含三大组件,分别是NVIDIA驱动、toolkit和 samples.toolkit里面包含的nvc ...
分类:
其他好文 时间:
2017-10-31 14:21:03
阅读次数:
193
Spark简介 Spark是一种快速、通用、可扩展的大数据分析引擎,目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。简单来说Spark是 内存迭代计 ...
分类:
其他好文 时间:
2017-10-29 15:17:07
阅读次数:
179
声明:此处为转载,仅为方便自己学习,转载地址在文中有标注。感谢原创博主。 一、Block与thread数量的选取: 一个gpu有1个grid,1个grid有多个block,这些block以一维或二维或三维数组的形式排列,blockIdx.x就是每个block在x方向上的索引值(就是序号),而每一个b ...
分类:
其他好文 时间:
2017-10-24 11:20:43
阅读次数:
219
前言 前面以前把关于HDFS集群的所有知识给讲解完了,接下来给大家分享的是MapReduce这个Hadoop的并行计算框架。 一、背景 1)爆炸性增长的Web规模数据量 2)超大的计算量/计算复杂度 3)并行计算大趋所势 二、大数据的并行计算 1)一个大数据若可以分为具有同样计算过程的数据块,并且这 ...
分类:
其他好文 时间:
2017-10-23 21:44:17
阅读次数:
143
不需要对特征进行归一化或标准化处;能够自动进行特征选择;可以分布式并行计算。 XGBOOST框架是对GBDT的优化设计,它的优点主要有 ...
分类:
其他好文 时间:
2017-10-18 10:08:41
阅读次数:
117
sklearn参数优化方法 http://www.cnblogs.com/nolonely/p/7007961.html 学习器模型中一般有两个参数:一类参数可以从数据中学习估计得到,还有一类参数无法从数据中估计,只能靠人的经验进行指定,后一类参数就叫超参数 比如,支持向量机里的C,Kernel,g ...
分类:
其他好文 时间:
2017-10-13 22:29:16
阅读次数:
227