mapreduce是hadoop的核心组件, 设计理念是移动计算而不是移动数据, mapreduce的思想是'分而治之', 将复杂的任务分解成几个简单的任务去执行 共分为4个步骤: 1, split 切分blcok, 切分为数据片段, split0, split1, split2 计算公式为: 2, ...
分类:
其他好文 时间:
2017-06-24 19:40:44
阅读次数:
167
模块: 可以理解为实现特定功能的一组方法。同时,它可以提供一个接口供其他程序调用。通过分而治之及复用思想,提高效率。 是否可以理解为类似组件的形式呢? 模块化的实现方法: (1)将多个函数封装在一起 (2)将变量与函数封装在一个对象中 (3)立即执行函数 JavaScript模块化规范:Common ...
分类:
其他好文 时间:
2017-06-24 13:55:40
阅读次数:
143
******HDFS基本概念篇****** 1. HDFS前言 l 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 ...
分类:
其他好文 时间:
2017-06-23 20:58:26
阅读次数:
285
自然语言处理中算法设计有两大部分:分而治之 和 转化 思想。一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化。前者的例子:归并排序;后者的例子:判断相邻元素是否相同(与排序)。这次总结的自然语言中常用的一些基本算法,算是入个门了。 递归 使用递归速度上会受影响,但是便于理解算法深层嵌套 ...
分类:
编程语言 时间:
2017-06-13 21:50:25
阅读次数:
320
根据不同的测试阶段,测试可以分为单元测试、集成测试、系统测试和验收测试体现了测试由小到大、又内至外、循序渐进的测试过程和分而治之的思想。 单元测试的粒度最小,一般由开发小组采用白盒方式来测试,主要测试单元是否符合“设计”。 集成测试界于单元测试和系统测试之间,起到“桥梁作用”,一般由开发小组采用白盒 ...
分类:
其他好文 时间:
2017-06-07 14:20:40
阅读次数:
165
题目描述:给定N个整数的序列{A1,A2,...,AN},求函数f(i,j)=max{0,ΣAk(i<=k<=j)}的最大值 算法1: 由程序结构可知,此算法的时间复杂度T(N)=O(N3)[有三层嵌套的for循环] 算法2: 由程序结构可知,此算法的时间复杂度T(N)=O(N2)[有两层嵌套的fo ...
分类:
其他好文 时间:
2017-06-04 00:17:53
阅读次数:
268
快速排序: 在一组数据中选择一个基准值,让后将数据分为两个部分,一部分大于基准,一部分小于基准,然后按此方法将两个部分分组,直到不能再分为止。 需要明白一个概念递归和分而治之的概念。 Python实现: ...
分类:
编程语言 时间:
2017-06-02 23:58:32
阅读次数:
356
医院的例子 现代的软件系统都是比较复杂的,设计师处理复杂系统的一个常见方法便是将其“分而治之”,把一个系统划分为几个较小的子系统。如果把医院作为一个子系统,按照部门职能,这个系统可以划分为挂号、门诊、划价、化验、收费、取药等。看病的病人要与这些部门打交道,就如同一个子系统的客户端与一个子系统的各个类 ...
分类:
编程语言 时间:
2017-05-28 22:33:03
阅读次数:
309
本文及后续文章,Redis版本均是v3.2.8 在文章《Redis 数据结构之dict》《Redis 数据结构之dict(2)》中,从代码层面做了简单理解。总感觉思路的不够条理性,特开一篇文章把哈希表中几个知识点串联下。 一、先来回顾下哈希表结构定义 /** * 哈希表 */ typedef str ...
分类:
其他好文 时间:
2017-05-22 11:10:10
阅读次数:
375
开宗明义!本文根据Google Beam大神Tyler Akidau的系列文章《The world beyond batch: Streaming 101》(批处理之外的流式世界)整理而成, 主要讨论流式数据处理。在大数据领域,流式数据处理越发地重要了。原因有以下几点: 人们越来越想要得到更及时的数 ...
分类:
其他好文 时间:
2017-05-22 09:59:24
阅读次数:
341