第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文...
分类:
编程语言 时间:
2014-08-03 17:33:25
阅读次数:
345
这本书,帮助我初步完成了大数据探索之旅。大数据,并不是那么简单,她是一种思维方式,更是一种新的商业模式,是需要社会各界关注的大事件。新的时代,是信息通信高度发达的时代,是信息无孔不入的时代。在具备自身核心竞争力的同时,对外分享、合作是企业生存和发展的唯一途..
分类:
其他好文 时间:
2014-08-03 15:27:06
阅读次数:
246
Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可...
分类:
其他好文 时间:
2014-08-02 15:27:03
阅读次数:
215
在我的人生经历中,总是会听到各种各样的经验指导,我渐渐发现一点:有些经验可以节省你的时间,但有些经验是即便您当下觉得无比正确了,却是知易行难,且需要自己不断去思考去尝试才能知道是否真的有用。在某种程度上,我很羡慕类似维克托·迈尔-舍恩伯格(《大数据时代》的作者)这样的畅销书作者,可以把3句话写成厚厚...
分类:
其他好文 时间:
2014-08-02 12:28:03
阅读次数:
186
大数据分析技术MR :离线计算框架Storm :实时计算框架Spark :内存计算框架YARN 基本架构ResourceManager? 处理客户端请求? 启动/ 监控ApplicationMaster? 监控NodeManager? 资源分配与调度NodeManager? 单个节点上的资源管理? ...
分类:
其他好文 时间:
2014-08-02 09:57:33
阅读次数:
285
近年来的大数据应用特别热,特别是Hadoop和Spark。但大家使用这些分布式文件系统和计算框架都需要一个分布式的集群环境,而大家手头一般没有多余的机器部署master和多个slave节点,就只能在VMware上多安装几个虚拟机来模拟集群的搭建,但是安装好一台虚拟机后,我想大部分的人都不想再耗时再重...
分类:
其他好文 时间:
2014-08-02 01:49:52
阅读次数:
267
MTU是Maximum Transmission Unit的缩写,意为最大传输单元,通俗的理解就是在网络上传送的最大数据包,单位是字节。 以太网对数据帧的长度都有一个限制,其最大值为1500,这个特性被称作MTU,不同类型的网络大多数都有一个上限。如果IP层有一个IP包要传,而且数据的长度比链路.....
分类:
其他好文 时间:
2014-08-02 01:32:22
阅读次数:
1806
# -*- coding: utf-8 -*-import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport jsons = pd.Series([1,3,5,np.nan,6,8]);print(s);s = p...
分类:
其他好文 时间:
2014-08-01 15:53:01
阅读次数:
202
转自:http://blog.csdn.net/linux__kernel/article/details/8271326很多人在Google上不停的找合适自己的压缩,殊不知Py的压缩很不错。可以试试。当然C#,Java的压缩也有第三方的类。Py有很多美名:数学理论强大,数据结构高级等等,关于压缩算...
分类:
编程语言 时间:
2014-08-01 15:23:01
阅读次数:
236
摘要 : 人类不知道的远远比知道的更有意义。历史永远不是线性发展,每一次跳跃前行中都有「黑天鹅」的身影。这就是「黑天鹅事件」要告诉我们的真相。上一篇文章里引用了「黑天鹅事件」这么个高贵冷艳的词汇,惹得众多读者发来讯息,让我讲讲黑天鹅的事。今天给大家简单说一点我对黑天鹅事件和大数据的认识。如果你像很多...
分类:
其他好文 时间:
2014-08-01 15:19:01
阅读次数:
190