一、耗时长的任务:消耗时间长的任务,以睡眠两秒为例。二、耗时短的任务:消耗时间短的任务,以分配耗时长的任务到指定进程为例。三、任务分配进程:异步进程。将收到的长耗时任务
以对同一用户的多次操作要排队的原则 分配到任务进程。补充:1. hash:key + value,以key取值的圆环式增长实现ha...
分类:
其他好文 时间:
2014-05-01 11:04:32
阅读次数:
364
直接在hql中使用中文会报错:org.apache.hadoop.ipc.RemoteException: java.io.IOException:
java.lang.RuntimeException: com.sun.org.apache.xerces.internal.impl.io.Malf...
分类:
其他好文 时间:
2014-05-01 04:26:42
阅读次数:
415
如果在Vertica数据库在建一张同样带AUTO_INCREMENT约束字段(ID)的表,由于AUTO_INCREMENT约束的限制,COPY导入数据时会发生冲突,导致COPY执行失败。
经过分析研究及测试,先创建SEQUENCE,然后创建表并设置ID字段的缺省值为NEXTVAL('schemaname.sequencename'),就可COPY导入AUTO_INCREMENT约束字段的数据。...
分类:
数据库 时间:
2014-04-29 13:44:21
阅读次数:
409
Hadoop2.3.0+Hbase0.96.1.1+Hive0.14.0+Zookeeper3.4.6+Sqoop1.99.3安装配置流程
一、 配置Hadoop
源码包:hadoop-2.3.0-src.tar.gz
1. 安装以下软件:
yum -yinstall lzo-devel zlib-devel gcc autoconf automake li...
分类:
其他好文 时间:
2014-04-29 13:37:20
阅读次数:
541
什么是表分区
一般情况下,我们建立数据库表时,表数据都存放在一个文件里。
但是如果是分区表的话,表数据就会按照你指定的规则分放到不同的文件里,把一个大的数据文件拆分为多个小文件,还可以把这些小文件放在不同的磁盘下由多个cpu进行处理。这样文件的大小随着拆分而减小,还得到硬件系统的加强,自然对我们操作数据是大大有利的。
所以大数据量的数据表,对分区的需要还是必要的,因为它可以提高s...
分类:
数据库 时间:
2014-04-29 13:33:20
阅读次数:
544
1 HDFS服务中,默认端口集合:
1. HDFS 端口
Service
Servers
Default Ports Used
Protocol
Description
Need End User Access?
Configuration Parameters
NameNode WebUI
Master Nodes (NameNo...
分类:
其他好文 时间:
2014-04-29 13:24:21
阅读次数:
492
安装oozie的时候,碰到了好多好多问题,都通过网上搜索找到答案解决,在这里总结一下...
分类:
其他好文 时间:
2014-04-29 13:17:22
阅读次数:
353
Java Client API Overview
HBase是用Java写的,支持用编程语言来动态操作管理数据库,能用命令行做的都可以用API来做。
基本的使用过程如下:
1.创建一个 Configuration 对象
–从 HDFS 对象中调用 Configuration
–添加 HBase 属性
Configuration conf = HbaseConfiguration....
分类:
编程语言 时间:
2014-04-29 13:12:21
阅读次数:
410
如何把Hadoop配置到多台机器中,构建分布式数据处理环境...
分类:
其他好文 时间:
2014-04-28 10:44:41
阅读次数:
293
写在前面:
Why to learn Python?All in picture:
开始正文啦,本文截取了笔记中的部分,其他详细内容稍微会整理呈现在博客中...
本文解决以下问题:
一、什么是Python
二、配置Windows Python环境
三、配置Python的Eclipse开发环境
四、Hello World,Python,waiting f...
分类:
编程语言 时间:
2014-04-28 10:12:41
阅读次数:
400