Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可...
分类:
其他好文 时间:
2014-08-02 15:27:03
阅读次数:
215
在我的人生经历中,总是会听到各种各样的经验指导,我渐渐发现一点:有些经验可以节省你的时间,但有些经验是即便您当下觉得无比正确了,却是知易行难,且需要自己不断去思考去尝试才能知道是否真的有用。在某种程度上,我很羡慕类似维克托·迈尔-舍恩伯格(《大数据时代》的作者)这样的畅销书作者,可以把3句话写成厚厚...
分类:
其他好文 时间:
2014-08-02 12:28:03
阅读次数:
186
大数据分析技术MR :离线计算框架Storm :实时计算框架Spark :内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...
分类:
其他好文 时间:
2014-08-02 09:57:33
阅读次数:
285
近年来的大数据应用特别热,特别是Hadoop和Spark。但大家使用这些分布式文件系统和计算框架都需要一个分布式的集群环境,而大家手头一般没有多余的机器部署master和多个slave节点,就只能在VMware上多安装几个虚拟机来模拟集群的搭建,但是安装好一台虚拟机后,我想大部分的人都不想再耗时再重...
分类:
其他好文 时间:
2014-08-02 01:49:52
阅读次数:
267
MTU是Maximum Transmission Unit的缩写,意为最大传输单元,通俗的理解就是在网络上传送的最大数据包,单位是字节。 以太网对数据帧的长度都有一个限制,其最大值为1500,这个特性被称作MTU,不同类型的网络大多数都有一个上限。如果IP层有一个IP包要传,而且数据的长度比链路.....
分类:
其他好文 时间:
2014-08-02 01:32:22
阅读次数:
1806
# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport jsons = pd.Series([1,3,5,np.nan,6,8]);print(s);s = p...
分类:
其他好文 时间:
2014-08-01 15:53:01
阅读次数:
202
转自:http://blog.csdn.net/linux__kernel/article/details/8271326很多人在Google上不停的找合适自己的压缩,殊不知Py的压缩很不错。可以试试。当然C#,Java的压缩也有第三方的类。Py有很多美名:数学理论强大,数据结构高级等等,关于压缩算...
分类:
编程语言 时间:
2014-08-01 15:23:01
阅读次数:
236
摘要 : 人类不知道的远远比知道的更有意义。历史永远不是线性发展,每一次跳跃前行中都有「黑天鹅」的身影。这就是「黑天鹅事件」要告诉我们的真相。上一篇文章里引用了「黑天鹅事件」这么个高贵冷艳的词汇,惹得众多读者发来讯息,让我讲讲黑天鹅的事。今天给大家简单说一点我对黑天鹅事件和大数据的认识。如果你像很多...
分类:
其他好文 时间:
2014-08-01 15:19:01
阅读次数:
190
文|张建国(中国建设银行行长)近十年来,中国银行业的改革发展取得了令世界瞩目的成就。在今年《银行家》《福布斯》发布的大企业排行榜和市值排名上,五家大型商业银行均已跻身世界前列。随着以移动互联网、云计算、“大数据”和物联网为代表的信息革命的兴起,银行业又一次面临新的机遇和挑战。中国银行业能否用好大数据...
分类:
其他好文 时间:
2014-08-01 13:08:31
阅读次数:
304
一、截断表的语句:truncate table schema.table_name删除表中的数据记录,但是不删除表的结构。该语句是ddl语句不能恢复被删除的数据行。不触发删除表记录的触发器不会将删除的记录写入日志文件中。在大数据来量的情况下,相比于使用delete from table_name w...
分类:
其他好文 时间:
2014-07-31 23:32:40
阅读次数:
350