一、Mahout是什么?Mahout是Apache的一个开源项目(http://mahout.apache.org/),提供了机器学习领域的若干经典算法,以便开发人员快速构建机器学习和数据挖掘方面的应用。Mahout是基于Hadoop的。从名称上看也很有意思,Hadoop是一个大象的名字,而Maho...
分类:
其他好文 时间:
2014-08-07 03:04:39
阅读次数:
476
Cassandra HBase一致性Quorum NRW策略通过Gossip协议同步Merkle Tree,维护集群节点间的数据一致性单节点,无复制,强一致性可用性1,基于Consistent Hash相邻节点复制数据,数据存在于多个节点,...
分类:
其他好文 时间:
2014-08-07 00:21:27
阅读次数:
389
什么是Sentry? ?????????Sentry 是Cloudera 公司发布的一个Hadoop开源组件,它提供细粒度基于角色的安全控制 Sentry下的数据访问和授权 ????????通过引进Sentry,Hadoop目前可在以下方面满足企...
分类:
其他好文 时间:
2014-08-06 23:19:12
阅读次数:
764
namenode跟secondarynamenode的执行过程...
分类:
其他好文 时间:
2014-08-06 23:09:42
阅读次数:
330
http://nlp.solutions.asia/?p=180http://www.promenade.me/archives/146环境 ubuntu 12.04sql建表CREATE DATABASE nutch DEFAULT CHARACTER SET utf8mb4 DEFAULT CO...
分类:
其他好文 时间:
2014-08-06 21:56:32
阅读次数:
239
详情可以参考《Mahout实战》的第六章代码:package mahout.wiki;import java.io.IOException;import java.util.ArrayList;import java.util.Collections;import java.util.Iterato...
分类:
其他好文 时间:
2014-08-06 18:37:01
阅读次数:
315
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1;查看执行结果:hadoop fs -cat /u...
分类:
数据库 时间:
2014-08-06 18:11:53
阅读次数:
434
sqoop产生背景多数是用Hadoop技术处理大数据业务的企业有大量的数据存储在传统的关系型数据库(RDBMS)中;由于缺乏工具的支持、对Hadoop和传统数据库系统中的数据进行相互传输是一件十分困难的事情;Sqoop就是一个在RDBMS和Hadoop之间进行数据传输的项目;sqoop概述sqoop...
分类:
其他好文 时间:
2014-08-06 18:04:35
阅读次数:
236
今天安装了hbase想做下测试,结果发现在创建表时报错“can't get master address from zookeeper, zookeeper date = null”,大致是这样描述的,之后查看日志,发现hbase在启动zookeeper时确实报错了,查阅了网上的资料,说hbas.....
分类:
其他好文 时间:
2014-08-06 17:27:52
阅读次数:
218