Hadoop技术内幕中指出Top
K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top
K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频 1 package
TopK;...
分类:
其他好文 时间:
2014-05-21 22:29:14
阅读次数:
599
lk@lk-virtual-machine:~/hadoop-1.0.1/bin$ ./hadoop dfs -rmr output
Deleted hdfs://localhost:9000/user/lk/output
lk@lk-virtual-machine:~/hadoop-1.0.1/bin$ ./hadoop jar ~/mytopk.jar top.Top input out...
分类:
其他好文 时间:
2014-05-13 06:53:12
阅读次数:
448