hadoop_day1

时间：2014-06-20 12:51:48 阅读：253 评论：0 收藏：0 [点我收藏+]

标签：style blog http ext 使用文件

bubuko.com,布布扣

下午

开启ssh服务：service sshd status

rsa:金融界的加密算法

exit

第一次exit是从ssh退出，第二次是退出终端

ssh hadoop0：使用ssh连接主机名为hadoop0(换成ip地址也行) 的机器

使用ssh和服务器（Linux）进行连接：ssh是加密的连接，相当于过了一圈，又回到了原点，但是是加密了的。

secure shell==ssh

hostname:查看主机名

hostname itheima修改主机名，只对当前窗口有效

上午

yarn：MapReduce能不能yarn上跑，要看调度算法

datanode:文件上传时，不支持断点续传

“海量数据” 的存储和计算：
hdfs:分布式文件系统，不需要关心存放在哪是透明的，就是不知道，不输入ip，只输入主机名
mapreduce:读取hdfs上的数据进行处理，推介的结果，是海量数据在多台机器上处理，分布在多台机器上，减少io操作（就是磁盘操作）。缺点：不合适实时处理，可以结合storm使用
把程序放在每一台机器上，然后把多台机器的结果汇总计算
yarn：组合mapreduce（不实时，主要在晚上凌晨）和strom（实时处理数据，一般在白天活跃）

Hadoop是一个平台

数据量大（单机存储不下）需要放在多个服务器上，好多台机器放在一起，完成一件事，好多台机器就是集群，每个机器是节点，Hadoop就是完成这样的作用
Hadoop适合大数据处理，不适合小量数据。数据分布在多台机器上，提高效率。

函数就是计算，形参、函数体、返回值

support，avro:序列化，相当于springMVC使用注解传递JSON数据到页面

非结构化数据：视频、音频

结构化数据：关系型数据库，hiho和sqoop是框架，关系型数据库存数据有限，不可能存储大量数据（不是你笔记本能存储下的），就需要使用hiho和sqoop来管理

h.base:是指Hadoop、database，就是速度快的一大作用。海量数据的秒级查询，pb级的

每个框架都有自己应用的特定场景

mahout（数据挖掘的作用、推介）最高级 pig相当于JSON（更高级） Hadoop相当于XML

bubuko.com,布布扣