搜索关键字：hadoop join，搜索到23020个结果！码迷,mamicode.com！

Mahout学习

Mahout小案例学习，实现k-means算法。环境：OS：Centos 6.5 x64 & Soft：Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget http://archive.ics.uci.edu/ml/databas...

分类：其他好文时间：2014-05-04 12:34:58 阅读次数：340

T-SQL之JOIN关键字详解

这几天由于工作的需要，写了一个业务逻辑较复杂的存储过程，其中多次用到了JOIN、LEFT JOIN、RIGHT JOIN在处理表之间的逻辑的作用被渲染的淋漓尽致。说明一下，之前少处理数据库后台的经验，特别是没有好好的研究SQL的知识细节。不过也简单的学习了，自以为看明白了。就懂了。现在想来那时就是浅...

分类：数据库时间：2014-05-04 11:32:18 阅读次数：329

Hadoop MRUnit使用（一）

之前在写MR job的时候，由于要在云梯，或者一淘的开发集群上运行；所以处理方法是，在本地打成jar包，然后scp到客户端网关机上，然后在提交job运行。这样的问题时，有时候如果遇到一些逻辑上的问题，job跑挂了。必须在本地修改程序，然后重新打包，scp，再运行，这样比较麻烦；询问了一圈，觉得采用M...

分类：其他好文时间：2014-05-04 10:54:29 阅读次数：427

ubuntu下hadoop环境配置

软件环境：虚拟机：VMware Workstation 10 操作系统：ubuntu-12.04-desktop-amd64 JAVA版本：jdk-7u55-linux-x64 Hadoop版本：hadoop-1.2.1 Hadoop下载地址：http://mirrors.cnnic.cn/apa...

分类：其他好文时间：2014-05-04 10:43:51 阅读次数：370

使用hadoop multipleOutputs对输出结果进行不一样的组织

MapReduce job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中，框架自己会自动对输出文件进行命名和组织，如:part-(m|r)-00000之类。但有时为了后续流程的方便，我们常需要对输出结果进行一定的分类和组织。...

分类：其他好文时间：2014-05-04 10:22:15 阅读次数：341

MapReduce 实现数据join操作

前段时间有一个业务需求，要在外网商品（TOPB2C）信息中加入联营自营识别的字段。但存在的一个问题是，商品信息和自营联营标示数据是两份数据；商品信息较大，是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join，将联营自营标识信息加入的商品信息中，最终生成我需要的数...

分类：其他好文时间：2014-05-04 10:02:22 阅读次数：565

SQL编程实例：Access数据库，两张表的统计，count、sum聚合函数的使用，iif的使用，group by的使用

使用工具： FineReport报表设计器，Access数据库需求描述：有两张表，订单表和订单明细表 1、订单表结构： 2、订单明细表结构：目的：根据这两张表做出下面的一张表分析： 1、因为在订单明细里订单ID可能出现多次，所以一定要先把订单ID去重，否则两张表join的时候，订单ID就会有重复的，这时用count函数求订单数量时就会出错了所以先...

分类：数据库时间：2014-05-04 09:26:59 阅读次数：999

利用JavaAPI访问HDFS的文件

利用JavaAPI访问HDFS的文件 1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件，不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了，最初我就是在这里吃了大亏，所以我死活连不上HDFS，文件无法创建、读取。hadoop.t...

分类：编程语言时间：2014-05-03 22:10:40 阅读次数：300

高效5步走，快速搭建Hadoop2伪分布环境

前两天将Hadoop2的完全分布式搭建文档整理发布于网上（http://blog.csdn.net/aaronhadoop/article/details/24859369），朋友相邀，就再将Hadoop2的伪分布式文档整理一下，搭建过Hadoop2完全分布式后，就笑对“伪分布式”说声呵呵吧。前期的jdk环境、SSH免密钥登录配置在此就不再赘述了，直接进入hadoop2的配...

分类：其他好文时间：2014-05-03 21:51:45 阅读次数：344

hadoop无法启动

dataNode 无法启动是配置过程中最常见的问题，主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...

分类：其他好文时间：2014-05-03 21:37:44 阅读次数：308

共23020条上一页 1 ... 2295 2296 2297 2298 2299 ... 2302 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)