NVMeSSD是存储盘的演进方向,与SATA/SASSSD相比,NVMeSSD具有10倍以上的性能增长。这主要还是得益于NVMeSSD的多队列技术,通过多队列技术可以将IO访问并行化,从而可以提升系统整体性能。在NVMe存储生态中,SSD技术已经变得非常成熟。Intel、Samsung以及Memblaze公司都已经推出..
分类:
其他好文 时间:
2016-12-01 22:44:49
阅读次数:
207
R 语言的优劣势是什么? 2015-05-27 程序员 大数据小分析 R,不仅仅是一种语言 本文原载于《程序员》杂志2010年第8期,因篇幅所限,有所删减,这里刊登的是全文。 工欲善其事,必先利其器,作为一个战斗在IT界第一线的工程师,C/C++、java、perl、python、ruby、php、 ...
分类:
编程语言 时间:
2016-11-28 00:58:20
阅读次数:
268
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。 Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。 在可以预见到分区数据非常庞大的情况下,索引常常是优于分区的。 博主我推荐各位博 ...
分类:
其他好文 时间:
2016-11-26 22:54:35
阅读次数:
304
前言
在本篇文章中,本人打算聊一个大家平常都会遇见到的场景:HDFS中的DataNode启动的问题。DataNode启动不是一件非常迅速的事情吗?这其中能有大问题?看到这里,如果你也是这么想的话...
分类:
其他好文 时间:
2016-11-20 11:24:39
阅读次数:
350
1.rdd的初始化 1.1 读取文件来初始化rdd(通过sparkContext的textFile方法) 1.1.1 读取本地文件 1.1.2 读取hdfs文件 1.2 并行化集合来初始化rdd(通过sparkContext.) 2.rdd的基本操作(分为transformation和action) ...
分类:
其他好文 时间:
2016-11-18 22:09:47
阅读次数:
208
作者简介赵鹏,世界知名IT企业性能分析师。在包括多核、分布式以及GPU通用计算方面具有丰富的研究和实践经验,善于帮助客户解决性能问题以及提供并行化方案。R语言爱好者,业余时间创建了ParallelR网...
分类:
其他好文 时间:
2016-11-17 20:50:04
阅读次数:
2242
Spark图处理GraphX学习笔记!一、什么是GraphX?Graphx利用了Spark这样了一个并行处理框架来实现了图上的一些可并行化执行的算法。算法是否能够并行化与Spark本身无关算法并行化与否的本身,需要通过数学来证明已经证明的可并行化算法,利用Spark来实现会是一个错的选择,因为G..
分类:
其他好文 时间:
2016-11-14 10:02:15
阅读次数:
1268
Floyd-Warshall算法是用于寻找加权图中非固定起止点间最短路径的经典算法,它是基于动态规划思想设计的。Floyd算法也是并行计算中常常用来作为范例进行演示的一个算法。本文将主要讨论基于MPI...
分类:
编程语言 时间:
2016-10-19 20:26:22
阅读次数:
431
xgboost是基于GBDT原理进行改进的算法,效率高,并且可以进行并行化运算; 而且可以在训练的过程中给出各个特征的评分,从而表明每个特征对模型训练的重要性, 调用的源码就不准备详述,本文主要侧重的是计算的原理,函数get_fscore源码如下, 源码来自安装包:xgboost/python-pa ...
分类:
其他好文 时间:
2016-10-03 19:11:50
阅读次数:
2454
今天主要还是探索opencv的并行化加速问题,通过cmake发现有配置的选项 即WITH_IPP WITH_TBB WITH_OPENMP 测试了勾选WITH_TBB WITH_OPENMP发现程序并没有加速,通过opencv_core/src/parallel.cpp发现这两个选项可能是互斥的 需 ...
分类:
其他好文 时间:
2016-09-05 22:14:49
阅读次数:
218