码迷,mamicode.com
首页 >  
搜索关键字:mahout lda hadoop cv    ( 16332个结果
eclipse导入hadoop 2.4
使用以下命令安装Elicpse插件hadoop-maven-plugins:$ cd ${HADOOP_HOME}/hadoop-maven-plugins$ mvn install然后生成Eclipse工程文件:$ cd ${HADOOP_HOME}$ mvn eclipse:eclipse -D...
分类:系统相关   时间:2014-07-18 16:37:24    阅读次数:302
递归遍历目录拷贝cdh下的lib到一个目录
destpath='/home/hadoop/soft/hadoop-2.0.0-cdh4.5.0/cdhlib/'jarpath='/home/hadoop/soft/hadoop-2.0.0-cdh4.5.0/share/hadoop/'search='jar'iterdir(){ cd $1 ...
分类:其他好文   时间:2014-07-18 16:35:53    阅读次数:225
细水长流话Hadoop(1)Hadoop序列化系统
声明:个人原创,转载请注明出处。文中引用了一些网上或书里的资料,如有不妥之处请告之。本文是我阅读Hadoop 0.20.2第二遍时写的笔记,在阅读过程中碰到很多问题,最终通过各种途径解决了大部分。Hadoop整个系统设计精良,源码值得学习分布式的同学们阅读,以后会将所有笔记一一贴出,希望能方便大家阅...
分类:其他好文   时间:2014-07-18 15:16:43    阅读次数:431
Hive架构层面优化之六分布式缓存
案例:Hadoop jar引用:hadoop jar -libjars aa.jar bb.jar ….jar包会被上传到hdfs,然后分发到每个datanode假设有20个jar文件,每天jar文件被上传上万次,分发达上万次(百G级),造成很严重的IO开销。如何使这些jar包在HDFS上进行缓存,...
分类:其他好文   时间:2014-07-18 00:23:59    阅读次数:265
Hadoop集群内lzo的安装与配置
LZO压缩,可分块并行处理,解压缩的效率也是可以的。为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器并配置lzo的文件:core-site.xml、mapred-site.xml。希望对大家有所帮助。以下是正...
分类:其他好文   时间:2014-07-17 22:01:19    阅读次数:876
centos安装hadoop(伪分布式)
在本机上装的CentOS 5.5 虚拟机, 软件准备:jdk 1.6 U26 hadoop:hadoop-0.20.203.tar.gzssh检查配置Linux代码 [root@localhost~]#ssh-keygen-trsaGeneratingpublic/privatersakeypair...
分类:其他好文   时间:2014-07-17 21:39:54    阅读次数:551
日志分析方法概述
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。 另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:其他好文   时间:2014-07-17 20:15:30    阅读次数:301
hadoop云盘客户端的设计与实现(一)
最近在hadoop云盘...
分类:其他好文   时间:2014-07-17 20:09:44    阅读次数:269
zookeeper分布式安装
今天研究了下zookeeper,先跟大家分项下部署过程~~相对于hadoop其他软件来说,zookeeper的安装还是很简单的环境说明:虚拟机3台IP地址hostname192.168.192.136namenode192.168.192.137datanode1192.168.192.138datanode2zookeeper-3.4.6.tar准备。在每个虚拟机上配置host:192.1..
分类:其他好文   时间:2014-07-17 15:30:20    阅读次数:259
hadoop编程小技巧(3)---自定义分区类Partitioner
Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/** Use {@link Object#hashCode()} to partition. */ p...
分类:其他好文   时间:2014-07-17 15:06:56    阅读次数:315
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!