lmt = limit data 10;只获取指定条数的数据,不能保证每次得到的结果一致,先执行order再limit可以保证一致。输入数据全部载入。会触发reduce阶段a = load 'a.txt';b = group a all;c = foreach b generate COUNT(a)...
分类:
其他好文 时间:
2015-06-07 23:17:13
阅读次数:
190
foreach:一行一行的遍历数据,处理一行的数据,然后返回一个tuple。users = load '/users.data';1)别名引用f = foreach users generate name, age; 2)位置引用f = foreach users generate $0, $1;....
分类:
其他好文 时间:
2015-06-07 23:11:23
阅读次数:
305
jnd = join a by f1, b by f2;join操作默认的是内连接,只有两边都匹配才会保留需要用null补位的那边需要知道它的模式:如果是左外连接,需要知道右边的数据集的模式,不匹配的字段用null补位如果是右外连接,需要知道左边的数据集的模式,不匹配的字段用null补位如果是全外连...
分类:
其他好文 时间:
2015-06-07 23:11:01
阅读次数:
712
sorted = order data by $0;数值类型按照数值大小比较chararray类型按照字符的字典顺序比较bytearray按照字节的字典顺序比较复杂类型(map、tuple、bag)不能比较null是最小的触发reduce阶段sorted = order data by $0;sor...
分类:
其他好文 时间:
2015-06-07 23:10:54
阅读次数:
188
环境:hadoop-2.4.1、jdk1.6.0_45、pig-0.12.11、下载pig并解压tar -xzvf pig-0.12.1.tar.gz 2、设置环境变量export PIG_HOME=~/pig-0.12.1export PATH=$PATH:$PIG_HOME/bin 3、测试.....
分类:
其他好文 时间:
2015-06-07 23:10:11
阅读次数:
229
filter:过滤数据,只有符合特定条件的数据才会被保留下来,然后进入下一个数据流。1)等值比较filter data by $0 == 1filter data by $0 != 12)字符串 正则匹配 JAVA的正则表达式字符串以CM开头filter data by $0 matches 'CM...
分类:
其他好文 时间:
2015-06-07 23:08:58
阅读次数:
221
users.data的内容如下:lisg 28 75dengsl 24 88 强制类型转换users = load '/users.data'fehed = foreach users generate (int)$1 as age; 隐式类型转换users = load...
分类:
其他好文 时间:
2015-06-07 23:08:47
阅读次数:
784
some = sample data 0.1遍历整个数据集,获取指定比例的行数的数据,获取的数据不确定,条数也不准确。内部重写为filter data by random() <= 0.1抽取100行数据data = load 'data';grpd = group data all;sums = ...
分类:
其他好文 时间:
2015-06-07 23:07:19
阅读次数:
98
parallel语句可以附加到Pig Latin中任一个关系操作符后面,然后它会控制reduce阶段的并行,因此只有对与可以触发reduce过程的操作符才有意义。 可以触发reduce过程的操作符有:group、order、distinct、join、cogroup、cross设置paralle.....
分类:
其他好文 时间:
2015-06-07 23:05:43
阅读次数:
411
store:将数据存储到HDFS等文件系统里将数据保存到/data目录store data into '/data'; 以逗号为分隔符store data into '/data' using PigStorage(',');
分类:
其他好文 时间:
2015-06-07 23:05:21
阅读次数:
126