码迷,mamicode.com
首页 >  
搜索关键字:mahout lda hadoop cv    ( 16332个结果
hadoop倒排索引
1.前言 学习hadoop的童鞋,倒排索引这个算法还是挺重要的。这是以后展开工作的基础。首先,我们来认识下什么是倒拍索引: 倒排索引简单地就是:根据单词,返回它在哪个文件中出现过,而且频率是多少的结果。这就像百度里的搜索,你输入一个关键字,那么百度引擎就迅速的在它的服务器里找到有该关键字...
分类:其他好文   时间:2014-07-27 10:24:42    阅读次数:266
HBase 实战(2)--时间序列检索和面检索的应用场景实战
前言: 作为Hadoop生态系统中重要的一员, HBase作为分布式列式存储, 在线实时处理的特性, 备受瞩目, 将来能在很多应用场景, 取代传统关系型数据库的江湖地位. 本篇主要讲述面向时间序列/面检索的应用场景时, 如何利用HBase的特性去处理和优化. 构造应用场景 某气象局对各个站点...
分类:其他好文   时间:2014-07-26 16:49:51    阅读次数:381
利用QJM实现HDFS自动主从切换(HA Automatic Failover)源码详析
最近研究了下NameNodeHAAutomaticFailover方面的东西,当ActiveNN因为异常或其他原因不能正常提供服务时,处于Standby状态的NN就可以自动切换为Active状态,从而到达真正的高可用NNHAAutomaticFailover架构图为了实现自动切换,需要依赖ZooKeeper和ZKFC组件,ZooKeeper主要用来..
分类:其他好文   时间:2014-07-26 03:27:38    阅读次数:392
centos6.3 搭建KVM虚拟机
突然接到老总需求,需要在现有机房的服务器上边部署KVM,让内网测试机到达外网去测试。说实话有些头疼,因为我们的硬件资源实在是太缺了(小公司...),只有100G的剩余空间,让我在上边跑俩台虚拟机,还得应付时刻增涨的数据,这无疑让我很无语...hadoop可是在这台服务器的.....
分类:其他好文   时间:2014-07-26 03:13:27    阅读次数:188
ganglia收集hbase的metrics
Ganglia监控软件主要是用来监控系统性能的软件,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。 本言讲解如何利用ganglia监控hbase指标,过滤无用的指标,并实现单独管理 hadoop metrics system 的功能,修改指标配置不用重启hbase。...
分类:其他好文   时间:2014-07-26 02:41:16    阅读次数:385
用java程序把本地的一个文件拷贝到hdfs上并显示进度
把程序打成jar包放到Linux上 转到目录下执行命令 hadoop jar mapreducer.jar /home/clq/export/java/count.jar  hdfs://ubuntu:9000/out06/count/ 上面一个是本地文件,一个是上传hdfs位置 成功后出现:打印出来,你所要打印的字符。 package com.clq.hdfs; import java...
分类:编程语言   时间:2014-07-26 02:27:17    阅读次数:270
Hadoop学习笔记(3)——分布式环境搭建
Hadoop学习笔记(3) ——分布式环境搭建 前面,我们已经在单机上把Hadoop运行起来了,但我们知道Hadoop支持分布式的,而它的优点就是在分布上突出的,所以我们得搭个环境模拟一下。 在这里,我们采用这样的策略来模拟环境,我们使用3台ubuntu机器,1台为作主机(master),另外2台....
分类:其他好文   时间:2014-07-26 01:48:06    阅读次数:233
hbase -MR将输出输出到hbase里面示例
1、主要是设置Reduce端输出的value类型直接上代码吧:注释就免了吧,大家应该很熟悉了。package hbase;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf...
分类:其他好文   时间:2014-07-25 19:04:02    阅读次数:271
Hadoop发行版本介绍
前言从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概...
分类:其他好文   时间:2014-07-25 14:13:02    阅读次数:446
适合国内网速的CDH5安装
使用Cloudera Manager 安装CDH,虽然方便快捷,但是在中国国情的网速下还是需要进行一些特别的处理,才能顺利安装。本文汇总了多个参考文档,详细的记录了安装过程和期间出现的问题与解决方法。...
分类:其他好文   时间:2014-07-24 23:02:34    阅读次数:455
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!