码迷,mamicode.com
首页 >  
搜索关键字:hadoop join    ( 23020个结果
Mahout学习
Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 & Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget http://archive.ics.uci.edu/ml/databas...
分类:其他好文   时间:2014-05-04 12:34:58    阅读次数:340
T-SQL之JOIN关键字详解
这几天由于工作的需要,写了一个业务逻辑较复杂的存储过程,其中多次用到了JOIN、LEFT JOIN、RIGHT JOIN在处理表之间的逻辑的作用被渲染的淋漓尽致。说明一下,之前少处理数据库后台的经验,特别是没有好好的研究SQL的知识细节。不过也简单的学习了,自以为看明白了。就懂了。现在想来那时就是浅...
分类:数据库   时间:2014-05-04 11:32:18    阅读次数:329
Hadoop MRUnit使用(一)
之前在写MR job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:其他好文   时间:2014-05-04 10:54:29    阅读次数:427
ubuntu下hadoop环境配置
软件环境: 虚拟机:VMware Workstation 10 操作系统:ubuntu-12.04-desktop-amd64 JAVA版本:jdk-7u55-linux-x64 Hadoop版本:hadoop-1.2.1 Hadoop下载地址:http://mirrors.cnnic.cn/apa...
分类:其他好文   时间:2014-05-04 10:43:51    阅读次数:370
使用hadoop multipleOutputs对输出结果进行不一样的组织
MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:其他好文   时间:2014-05-04 10:22:15    阅读次数:341
MapReduce 实现数据join操作
前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段。但存在的一个问题是,商品信息和自营联营标示数据是两份数据;商品信息较大,是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join,将联营自营标识信息加入的商品信息中,最终生成我需要的数...
分类:其他好文   时间:2014-05-04 10:02:22    阅读次数:565
SQL编程实例:Access数据库,两张表的统计,count、sum聚合函数的使用,iif的使用,group by的使用
使用工具: FineReport报表设计器,Access数据库 需求描述: 有两张表,订单表和订单明细表 1、订单表结构: 2、订单明细表结构: 目的:根据这两张表做出下面的一张表 分析: 1、因为在订单明细里订单ID可能出现多次,所以一定要先把订单ID去重,否则两张表join的时候,订单ID就会有重复的,这时用count函数求订单数量时就会出错了 所以先...
分类:数据库   时间:2014-05-04 09:26:59    阅读次数:999
利用JavaAPI访问HDFS的文件
利用JavaAPI访问HDFS的文件 1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.t...
分类:编程语言   时间:2014-05-03 22:10:40    阅读次数:300
高效5步走,快速搭建Hadoop2伪分布环境
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声 呵呵吧。        前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
分类:其他好文   时间:2014-05-03 21:51:45    阅读次数:344
hadoop无法启动
dataNode 无法启动是配置过程中最常见的问题,主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...
分类:其他好文   时间:2014-05-03 21:37:44    阅读次数:308
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!