我们在hdfs的/data/join创建两个文件: 上传第一个文件名称为1.txt 内容第一列是日期,第二列uid(普通用户id) 上传第二个文件名称为2.txt 内容第一列是日期,第二列uid(普通用户id) 执行上传到hdfs: hdfs命令行查...
我们在hdfs的/data/join创建两个文件:
上传第一个文件名称为1.txt
内容第一列是日期,第二列uid(普通用户id)
上传第二个文件名称为2.txt
内容第一列是日期,第二列uid(普通用户id)
执行上传到hdfs:
hdfs命令行查询:
web控制台管理查询:
首先在命令行中设置日期格式:
然后声明...
对于spark streaming来说,receiver是数据的源头。spark streaming的框架上,将receiver替换spark-core的以磁盘为数据源的做法,但是数据源(如监听某个tcp链接)显然不是可靠且不知道数据什么时候准备好的,所以spark streaming使用shuff...
分类:
其他好文 时间:
2015-02-05 14:58:43
阅读次数:
184
DStream是类似于RDD概念,是对数据的抽象封装。它是一序列的RDD,事实上,它大部分的操作都是对RDD支持的操作的封装,不同的是,每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生(与RDD一...
分类:
其他好文 时间:
2015-02-05 14:56:02
阅读次数:
260
StreamingContext 和SparkContex的用途是差不多的,作为spark stream的入口,提供配置、生成DStream等功能。总体来看,spark stream包括如下模块:/** * Main entry point for Spark Streaming functiona...
分类:
其他好文 时间:
2015-02-05 14:54:10
阅读次数:
293
DStreamGraph有点像简洁版的DAG scheduler,负责根据某个时间间隔生成一序列JobSet,以及按照依赖关系序列化。这个类的inputStream和outputStream是最重要的属性。spark stream将动态的输入流与对流的处理通过一个shuffle来连接。前面的(shu...
分类:
其他好文 时间:
2015-02-05 14:53:13
阅读次数:
302
一天一段scala代码(六)
为了更好的驾驭spark,最近在学习scala语言特性,主要看《快学scala》,顺便把一些自己认为有用的代码记下来。
package examples
class Account
{
val id = Account.getUnique()//访问这个类的伴生对象
}
object Account //上面类...
分类:
其他好文 时间:
2015-02-04 21:52:08
阅读次数:
254
1.临时修改主机名 显示主机名: spark@master:~$ hostname master 修改主机名: spark@master:~$ sudo hostname hadoop spark@master :~$ hostname hadoop PS:以上的修改只是临时修改,重启后就恢复原样了。 2.永...
分类:
其他好文 时间:
2015-02-04 20:30:10
阅读次数:
484
本节中所用到的内容是来自搜狗实验室,网址为:http://www.sogou.com/labs/dl/q.html 我们使用的是迷你版本的tar.gz格式的文件,其大小为87K,下载后如下所示: 上传到服务器后,解压并查看: 查看Sogou文件内容:...
ApplicationContext ac1 = new FileSystemXmlApplicationContext("com/spark/system/applicationContext.xml");//如果配置文件放在文件系统的目录下则优先使用该方式
//com/spark/system/applicationContext.xml等价于"file:com/spark/system/a...
分类:
移动开发 时间:
2015-02-04 13:04:21
阅读次数:
227