码迷,mamicode.com
首页 >  
搜索关键字:mahout lda hadoop cv    ( 16332个结果
hive的学习入门(飞进数据仓库的小蜜蜂)
前言hive是构建在Hadoop上的数据仓库平台,其设计目标是:使Hadoop上的数据操作与传统的SQL结合,让熟悉sql的开发人员能够轻松的像Hadoop平台迁移。Hive是Facebook的信息平台的重要组成部分,Facebook在2008年将其共献给Apache,现在Hive是Hadoop家族...
分类:其他好文   时间:2014-07-29 17:22:12    阅读次数:282
Window7中Eclipse运行MapReduce程序报错的问题
按照文档:http://www.micmiu.com/bigdata/hadoop/hadoop2x-eclipse-mapreduce-demo/安装配置好Eclipse后,运行WordCount程序报错: log4j:WARN No appenders could be found for lo...
分类:Windows程序   时间:2014-07-29 16:39:32    阅读次数:482
自寻烦恼之VirtualBox
如果感觉在虚拟机中打开火狐查看Hadoop状态有点拖拖拉拉,宿主机浏览器不失为一个好选择,但这时问题来了,因为方便的缘故,虚拟网络配置几乎全用的DHCP,要在宿主机访问虚拟机,就要在VirtualBox下配置静态IP,很...
分类:其他好文   时间:2014-07-29 16:16:39    阅读次数:236
lucene源代码学习之LZ4压缩算法在lucene中应用
LZ4算法又称为RealtimeCompressionAlgorithm,在操作系统(linux/freeBSD)、文件系统(OpenZFS)、大数据(Hadoop)、搜索引擎(Lucene/solr)、数据库(Hbase)……都可以看到它的身影,可以说是一个非常通用的算法。LZ4最突出的地方在于它的压缩/解压速度。基础知识理解Lucene中LZ4算..
分类:其他好文   时间:2014-07-29 15:24:30    阅读次数:483
hadoop编程小技巧(8)---Unit Testing (单元测试)
所需环境:Hadoop相关jar包(下载官网发行版即可);下载junit包(最新为好);下载mockito包;下载mrunit包;下载powermock-mockito包;相关包截图如下:应用场景:在进行Hadoop的一般MR编程时,需要验证我们的业务逻辑,或者说是验证数据流的时候可以使用此环境,这个环境不要求真实的云平台,只是针对算法或者代码逻辑进行验证,方便调试代码。实例:Mapper:pac...
分类:其他好文   时间:2014-07-29 15:15:00    阅读次数:373
HBase中的备份和故障恢复方法
本文将对Apache HBase可用的数据备份机制和大量数据的故障恢复/容灾机制做简要介绍。 随着HBase在重要的商业系统中应用的大量增加,许多企业需要通过对它们的HBase集群建立健壮的备份和故障恢复(backup and disaster recovery, BDR)机制来保证它们的企业(数据)资产。HBase和Apache Hadoop系统提供了许多内置的机制,可以快速而轻松的完成PB级...
分类:其他好文   时间:2014-07-29 14:47:08    阅读次数:301
关于Hadoop-Streaming中碰到的问题
Hadoop在分布式计算方面很强大,而Python在文本处理也是相当方便,那么有这两者的结合吗?有,答案就是Hadoop-Streaming。Hadoop-Streaming可以将Hadoop与主流语言结合起来,使用方便,效果很好。个人觉得Pig在处理数据集时很不方便,特别是在计算百分比等运算时,而Hadoop-Streaming是可以替代Pig的。 1.Streaming固定的代码,该代码可以...
分类:其他好文   时间:2014-07-29 14:39:08    阅读次数:340
3 分钟快速体验 Apache Spark SQL
“War of the Hadoop SQL engines. And the winner is …?” 这是个很好的问题。不过,无论答案如何,我们都值得花一点时间了解一下 Spark SQL 这个 Spark 家族里面的成员。...
分类:数据库   时间:2014-07-29 14:35:08    阅读次数:308
hadoop核心逻辑shuffle代码分析-map端
首先要推荐一下:http://www.alidata.org/archives/1470阿里的大牛在上面的文章中比较详细的介绍了shuffle过程中mapper和reduce的每个过程,强烈推荐先读一下。不过,上文没有写明一些实现的细节,比如:spill的过程,mapper生成文件的 partiti...
分类:其他好文   时间:2014-07-29 13:43:18    阅读次数:298
《Hadoop高级编程》之为Hadoop实现构建企业级安全解决方案
本章内容提要 ●    理解企业级应用的安全顾虑 ●    理解Hadoop尚未为企业级应用提供的安全机制 ●    考察用于构建企业级安全解决方案的方法          第10章讨论了Hadoop安全性以及Hadoop中用于提供安全控制的机制。当构建企业级安全解决方案(它可能会围绕着与Hadoop数据集交互的许多应用程序和企业级服务)时,保证Hadoop自身的安全仅仅是安全解决方案的...
分类:其他好文   时间:2014-07-29 13:04:37    阅读次数:488
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!