Apache DataFu分两部分,本文介绍的是其Pig UDF的部分。代码在Github上开源。
DataFu里面是一些Pig的UDF,主要包括这些方面的函数:
bags、geo、hash、linkanalysis、random、sampling、sessions、sets、stats、urls
每方面都对应一个package。
我把所有的函数源码都浏览了一遍。其实本身对这些UDF的使用,官方的文档上都有介绍,而且源码的注释里也些的很清晰。所以使用本身是很简单的。
从实现角度看,继承自Pig Ev...
分类:
其他好文 时间:
2014-05-09 01:14:25
阅读次数:
436
费老劲看了parameter estimation for text
analysis,这两天一定把这个gibbs sampling for the
uninitiated看完><先收两个看起来不错的笔记:http://www.crescentmoon.info/?p=504http://www.x...
分类:
其他好文 时间:
2014-04-29 22:07:06
阅读次数:
467