1 定义hadoop是一个分布式系统架构。2 基本模块HDFS为海量数据提供了存储。Map/Reduce为海量数据提供了计算。3 子项目Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的...
分类:
其他好文 时间:
2014-08-07 15:40:30
阅读次数:
239
一、Mahout是什么?Mahout是Apache的一个开源项目(http://mahout.apache.org/),提供了机器学习领域的若干经典算法,以便开发人员快速构建机器学习和数据挖掘方面的应用。Mahout是基于Hadoop的。从名称上看也很有意思,Hadoop是一个大象的名字,而Maho...
分类:
其他好文 时间:
2014-08-07 03:04:39
阅读次数:
476
什么是Sentry? ?????????Sentry 是Cloudera 公司发布的一个Hadoop开源组件,它提供细粒度基于角色的安全控制 Sentry下的数据访问和授权 ????????通过引进Sentry,Hadoop目前可在以下方面满足企...
分类:
其他好文 时间:
2014-08-06 23:19:12
阅读次数:
764
namenode跟secondarynamenode的执行过程...
分类:
其他好文 时间:
2014-08-06 23:09:42
阅读次数:
330
详情可以参考《Mahout实战》的第六章代码:package mahout.wiki;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.Iterato...
分类:
其他好文 时间:
2014-08-06 18:37:01
阅读次数:
315
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1;查看执行结果:hadoop fs -cat /u...
分类:
数据库 时间:
2014-08-06 18:11:53
阅读次数:
434
sqoop产生背景多数是用Hadoop技术处理大数据业务的企业有大量的数据存储在传统的关系型数据库(RDBMS)中;由于缺乏工具的支持、对Hadoop和传统数据库系统中的数据进行相互传输是一件十分困难的事情;Sqoop就是一个在RDBMS和Hadoop之间进行数据传输的项目;sqoop概述sqoop...
分类:
其他好文 时间:
2014-08-06 18:04:35
阅读次数:
236
background:项目中的一个小工具,是一个Cron Job ,每天去搜集下服务器Hadoop Job的运行状态,并生成一份报告发送给整个Team,生产报告的同时把相关的日志文件保存到固定的一台机子上,方便以后查看和分析,因为生产环境上的Log只保存7天。问题:日志是保存上固定的目录下面,而且是...
分类:
数据库 时间:
2014-08-06 17:18:31
阅读次数:
360
《Hadoop高级编程——构建与实现大数据解决方案》有奖试读,点击查看图书详情...
分类:
其他好文 时间:
2014-08-06 14:55:41
阅读次数:
294