码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop hive parquet    ( 33788个结果
大数据的三个入口
大数据的热门使得很多人都想往这个方向发展,做一些像数据挖掘,数据分析之类的工作。但是该从何开始呢?要怎样才能快速学到一些有用的知识,技能呢?我觉得有三个切入点,依照个人特点可以自行选择顺序切入。...
分类:其他好文   时间:2014-05-22 10:33:54    阅读次数:232
java矩阵运算包ujmp中的一些小示例和注意事项
本人最近在用ujmp包写一些程序,ujmp包是针对于超大数据量计算的矩阵的运算包,并且有图形显示的功能且支持多种文件格式的读取和输出,还支持连接数据库,matlab数据类型和weka数据类型,总体来说非常好用,但是有一个很大的缺陷就是基本没有相关的示例和文档,官网上的示例有基本全都过时不能用了,本人...
分类:编程语言   时间:2014-05-22 01:35:09    阅读次数:525
MapReduce之浅析Map接口和Reduce接口
import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap...
分类:其他好文   时间:2014-05-22 01:11:55    阅读次数:337
解决用户“不在 sudoers 文件中”的问题
在centOS系统中,我添加了一个用户,但是在我执行su时,终端告诉我以上的错误,下面是我的解决过程:首先切换到root用户:给 etc/hosts读写的权限:使用vi功能打开sudoers文件,在root ALL=(ALL) ALL后面加入本用户的信息:hadoop ALL=(ALL) ALL重新...
分类:其他好文   时间:2014-05-21 23:35:26    阅读次数:347
使用shell+awk完成Hive查询结果格式化输出
好久不写,一方面是工作原因,有些东西没发直接发,另外的也是习惯给丢了,内因所致。今天是个好日子,走起!btw,实际上这种格式化输出应该不只限于某一种需求,差不多是通用的。需求:--基本的:当前Hive查询结果存在数据与表头无法对其的情况,不便于监控人员直接查看,或者导出到excel中,需要提供一个脚...
分类:其他好文   时间:2014-05-21 23:00:39    阅读次数:527
MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频 1 package TopK;...
分类:其他好文   时间:2014-05-21 22:29:14    阅读次数:599
使用Windows Azure 第一步就应该创建地缘组Affinity groups
WindowsAzure目前在全球有八大数据中心(美国西部,美国东部,美国中北部,美国中南部,北欧,西欧,东亚,南亚)。还有中国南北两个数据中心。每个数据中心都由若干个"容器"组成,"容器"的内部是集群(cluster)和机架(rack)。每一个容器都有特定的服务,比如计算和存储,SQLDatab..
分类:Windows程序   时间:2014-05-21 02:45:00    阅读次数:350
sqoop-1.99.3-bin-hadoop200
因为用的hadoop2.20所以下载sqoop-1.99.3-bin-hadoop200使用随便找一个hadoopnode节点做sqoopserver:1.下载安装[hadoop@slave1~]$wgethttp://mirror.bit.edu.cn/apache/sqoop/1.99.3/sqoop-1.99.3-bin-hadoop200.tar.gz[hadoop@slave1~]$tarxvfsqoop-1.99.3-bin-hadoop200.tar...
分类:其他好文   时间:2014-05-21 00:01:45    阅读次数:439
hive union all报错
今天在写一个sql的时候,使用了hive的unionall,运行时报错。sql如下:selectdimension_name,dt,dtype_name,uv,new_uv,old_uv,pv,stay_timefromtemp_bi.uv unionall select‘平台‘dimension_name ,dt ,app_platformdtype_name ,count(distinctmid)uv ,count(distinctcasewhenis_..
分类:其他好文   时间:2014-05-20 23:53:32    阅读次数:527
记一则罕见的hive字段值异常引起map阶段的OOM
前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。先看log。节点一的TaskTracker的log:节点二的TaskTracker的log:节点三的TaskTracker的log:其他节点的TaskTracker中的log都和slave4的一样的:故障分析:OOM是一个比较常见的故..
分类:其他好文   时间:2014-05-20 22:15:47    阅读次数:422
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!