是一个并行计算框架(计算的数据源比较广泛 HDFS、RDBMS、NoSQL),Hadoop的 MR模块充分利用了HDFS中所有数据节点(datanode)所在机器的内存、CUP以及少量磁盘完成对大数据集的分布式计算。MapReduce将计算分为两个阶段: 1. 通过将一个大的计算任务分割成若干个小任 ...
分类:
其他好文 时间:
2019-01-04 21:59:10
阅读次数:
207
(1)RDD的介绍?????RDD(ResilientDistributedDataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变(RDD中的数据,不能增删改),可分区、元素可并行计算的集合。??具有数据流的模型的特点,自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显示的将工作集缓存在内存中。后续的查询能够重用工作集,这极大地提升了查询速度。??RD
分类:
其他好文 时间:
2019-01-03 12:09:55
阅读次数:
208
冒泡排序算法: - 算法分析: 时间复杂度: 经过几轮修改,数组正序时,最优复杂度可以达到O(n);逆序时,最差复杂度O(n2)。 稳定性: 算法中,每次只有前一个元素大于后一个元素,才会进行交换。所以数值相同的两个元素,不会发生位置互换,所以可以保持之前前后顺序。故,冒泡排序是稳定的排序。 奇偶排 ...
分类:
其他好文 时间:
2018-12-29 11:55:52
阅读次数:
193
工作中需要对tensorflow 的一个predict结果加速,利用python中的线程池 def getPPLs(tester,datas): tester = run_epoch.rescore(session, test_lm, data, test_data, eval_op=None, t ...
分类:
编程语言 时间:
2018-12-27 11:15:20
阅读次数:
275
详细代码我已上传到github: "click me" 一、 实验要求 在 Spark2.3 平台上实现 Apriori 频繁项集挖掘的并行化算法。要求程序利用 Spark 进 行并行计算。 二、算法设计 ...
分类:
编程语言 时间:
2018-12-21 13:15:01
阅读次数:
279
本文适合于熟悉开源区块链技术HyperledgerFabric,以及希望更高效地使用华为云区块链服务的读者。当然,也欢迎任何对区块链技术有兴趣的读者阅读本文,相信读者们都能从中受益。2018年2月1日华为云发布企业级区块链开放平台区块链服务BCS(BlockchainService),是基于开源区块链技术和华为在分布式并行计算、数据管理、安全加密等核心技术领域多年积累基础上推出的企业级区块链云服务
1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性 ...
分类:
其他好文 时间:
2018-12-17 11:33:18
阅读次数:
192
集算器SPL是一门结构化数据处理语言,它提供了大量的结构化数据处理函数,支持并行计算、有序集合、集合式分组等功能,使得数据处理不仅仅方便,而且性能颇高,还能实现很多让SQL和存储过程挠头的功能。它提供了 JDBC 驱动,可以很方便与其他报表工具集成使用。 《BIRT 调用 SPL 脚本》这篇文章就 ...
分类:
其他好文 时间:
2018-12-07 22:31:22
阅读次数:
222
tf.tuple(元组)tf.tuple(tensors,name=None,control_inputs=None)将多个tensor合并组。这创建了一个张量元组,其值与多张量参数相同,只是每个张量的值只有在计算完所有张量的值之后才返回。control_inputs包含额外的OPS,在OP完成之前必须完成,但其输出不返回。这可以被用作并行计算的“连接”机制:所有的参数张量可以并行计算,但是在所有
分类:
其他好文 时间:
2018-12-03 20:21:04
阅读次数:
173
一.与CUDA相关的几个概念:thread,block,grid,warp,sp,sm。 sp: 最基本的处理单元,streaming processor 最后具体的指令和任务都是在sp上处理的。GPU进行并行计算,也就是很多个sp同时做处理 sm:多个sp加上其他的一些资源组成一个sm, stre ...
分类:
编程语言 时间:
2018-12-01 16:03:55
阅读次数:
291