1、reduce:2、collect:3、count:4、take:5、saveAsTextFile:6、countByKey:7、foreach:package sparkcore.java;import java.util.Arrays;import java.util.List;import ... ...
分类:
其他好文 时间:
2017-07-31 13:27:02
阅读次数:
169
没有Java,甚至不会有大数据的大发展,Hadoop本身就是用Java编写的。当你需要在运行MapReduce的服务器集群上发布新功能时,你需要进行动态的部署,而这正是Java所擅长的。大数据领域支持Java的主流开源工具:1. HDFSHDFS是Hadoop应用程序中主要的分布式储存系统, HDF ...
分类:
编程语言 时间:
2017-07-27 11:31:00
阅读次数:
201
Flume是一个分布式的,效率高的用来收集日志数据的开源框架。它的架构是基于流式数据,有3个重要的组件,分别是Source,Channel和Sink。 Flume架构和特点 Flume架构图如上,非常简单。 一个Flume的事件(event)表示数据流中的一个单位,它会带有字节数据和可选的字符串属性 ...
分类:
Web程序 时间:
2017-07-27 09:37:27
阅读次数:
192
转:http://www.cnblogs.com/nexiyi/p/hbase_shell.html hbase(main)> whoami hbase(main)> whoami hbase(main)> whoami hbase(main)> whoami hbase(main)> whoami ...
分类:
系统相关 时间:
2017-07-24 19:10:43
阅读次数:
404
Kudu的背景 Hadoop中有很多组件,为了实现复杂的功能通常都是使用混合架构, Hbase:实现快速插入和修改,对大量的小规模查询也很迅速 HDFS/Parquet + Impala/Hive:对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。 HDF ...
分类:
其他好文 时间:
2017-07-20 17:29:13
阅读次数:
381
列出 hive的 全部库 sqoop list-databases --connect jdbc:mysql://localhost --username hive --password hive 列出全部的表 sqoop list-tables --connect jdbc:mysql://loc ...
分类:
其他好文 时间:
2017-07-16 20:25:56
阅读次数:
208
引子: 上图是两个系统交互的情况,现在我想将对外系统的调用做成异步实现,那么就需要考虑两个问题: 主线程可以得到异步线程的结果,在得到结果之后再进行operation-4 ?主线程如何得到异步线程结果? ?主线程在得到异步线程的结果之前是否可以不等待? 可以使用Future模式来实现。 Future ...
分类:
其他好文 时间:
2017-07-15 14:46:48
阅读次数:
156
官方文档:http://hadoop.apache.org/docs/r1.2.1/file_system_shell.html1、登录主节点,切换到hdfs用户[hdfs@cdhm1~]#su-hdfs2、列出当前目录有哪些子目录,有哪些文件[hdfs@cdhm1~]$hadoopfs-ls/
Found2items
drwxrwxrwt-hdfssupergroup02017-05-2316:39/tmp
drwxr-xr-x-hdf..
分类:
其他好文 时间:
2017-07-11 09:38:46
阅读次数:
177
原我是这样写的 //输入数据所在的文件目录 FileInputFormat.addInputPath(job, new Path("/input/")); //mapreduce执行后输出数据目录 FileOutputFormat.setOutputPath(job, new Path("/outp ...
分类:
Web程序 时间:
2017-07-06 18:36:30
阅读次数:
374