大数据分析技术MR :离线计算框架Storm :实时计算框架Spark :内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...
分类:
其他好文 时间:
2014-08-02 09:57:33
阅读次数:
285
近年来的大数据应用特别热,特别是Hadoop和Spark。但大家使用这些分布式文件系统和计算框架都需要一个分布式的集群环境,而大家手头一般没有多余的机器部署master和多个slave节点,就只能在VMware上多安装几个虚拟机来模拟集群的搭建,但是安装好一台虚拟机后,我想大部分的人都不想再耗时再重...
分类:
其他好文 时间:
2014-08-02 01:49:52
阅读次数:
267
MTU是Maximum Transmission Unit的缩写,意为最大传输单元,通俗的理解就是在网络上传送的最大数据包,单位是字节。 以太网对数据帧的长度都有一个限制,其最大值为1500,这个特性被称作MTU,不同类型的网络大多数都有一个上限。如果IP层有一个IP包要传,而且数据的长度比链路.....
分类:
其他好文 时间:
2014-08-02 01:32:22
阅读次数:
1806
Scala中定义匿名函数的语法是相当轻量的。下面的表达式就定义了一个接受一个Int 类型输入参数的匿名函数: 上述定义的匿名函数,其实是下面这种写法的简写: 简单调用如下: 我们当然也可以定义多个参数的匿名函数: 多参数使用Function语法来定义如下 也可以定义没有参数的匿名函数: 匿名函数的F...
分类:
其他好文 时间:
2014-08-01 22:36:32
阅读次数:
375
# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport jsons = pd.Series([1,3,5,np.nan,6,8]);print(s);s = p...
分类:
其他好文 时间:
2014-08-01 15:53:01
阅读次数:
202
转自:http://blog.csdn.net/linux__kernel/article/details/8271326很多人在Google上不停的找合适自己的压缩,殊不知Py的压缩很不错。可以试试。当然C#,Java的压缩也有第三方的类。Py有很多美名:数学理论强大,数据结构高级等等,关于压缩算...
分类:
编程语言 时间:
2014-08-01 15:23:01
阅读次数:
236
摘要 : 人类不知道的远远比知道的更有意义。历史永远不是线性发展,每一次跳跃前行中都有「黑天鹅」的身影。这就是「黑天鹅事件」要告诉我们的真相。上一篇文章里引用了「黑天鹅事件」这么个高贵冷艳的词汇,惹得众多读者发来讯息,让我讲讲黑天鹅的事。今天给大家简单说一点我对黑天鹅事件和大数据的认识。如果你像很多...
分类:
其他好文 时间:
2014-08-01 15:19:01
阅读次数:
190
文|张建国(中国建设银行行长)近十年来,中国银行业的改革发展取得了令世界瞩目的成就。在今年《银行家》《福布斯》发布的大企业排行榜和市值排名上,五家大型商业银行均已跻身世界前列。随着以移动互联网、云计算、“大数据”和物联网为代表的信息革命的兴起,银行业又一次面临新的机遇和挑战。中国银行业能否用好大数据...
分类:
其他好文 时间:
2014-08-01 13:08:31
阅读次数:
304
一、截断表的语句:truncate table schema.table_name删除表中的数据记录,但是不删除表的结构。该语句是ddl语句不能恢复被删除的数据行。不触发删除表记录的触发器不会将删除的记录写入日志文件中。在大数据来量的情况下,相比于使用delete from table_name w...
分类:
其他好文 时间:
2014-07-31 23:32:40
阅读次数:
350
1、对于像状态之类的列,不是很多的,就可以加位图索引,对于唯一的列,就加唯一索引,其余的创建普通索引。2、尽量不要使用select * 这样的查询,指定需要查询的列。3、使用hits select /*+index(索引名称) index(索引名称)*/ supply_id from CSS_SUP...
分类:
数据库 时间:
2014-07-31 19:56:07
阅读次数:
335