安装好了IntelliJ IDEA,但是很多东西还没有配置好,明天再更新。 下载IntelliJ IDEA并解压; 运行bin目录下的idea.sh文件; 勾选同意; 勾选不发送; 勾选免费试用版; ...
分类:
其他好文 时间:
2020-02-05 23:40:31
阅读次数:
98
今天主要完成了北京市政百姓信件分析实战。 Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。 启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。 值得一提,nc -l 9999 虽然也是适用的,-k是为了可以保持多个连接,所以应该还是必要的 ...
分类:
其他好文 时间:
2020-02-05 23:29:47
阅读次数:
86
5.sc.textFiles() 与 sc.wholeTextFiles() 的区别 sc.textFile()是将path 里的所有文件内容读出,以文件中的每一行作为一条记录的方式,文件的每一行 相当于 列表 的一个元素,因此可以在每个partition中用for i in data的形式遍历处理 ...
分类:
其他好文 时间:
2020-02-05 18:20:06
阅读次数:
457
今天完成了实验任务三,主要学习了其中的Spark读取文件系统的数据。 在 spark-shell 中读取HDFS 系统文件“/user/hadoop/test.txt”(如果该文件不存在,请先创建),然后,统计出文件的行数; scala>val textFile=sc.textFile("hdfs: ...
分类:
其他好文 时间:
2020-02-05 13:41:27
阅读次数:
70
今天进行了Spark的安装。 1.1 下载安装包进入Scala下载页面,下拉,找到tgz包 右击,复制链接如下https://downloads.lightbend.com/scala/2.11.12/scala-2.11.12.tgz在master的命令行中输入:wget https://down ...
分类:
其他好文 时间:
2020-02-05 00:00:07
阅读次数:
97
1. SparkSql如何自定义函数 2. 示例:Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数? spark中我们定义一个函数,需要继承 UserDefinedAggregateFunction这个抽象类,实现这个抽象类中所定义的方法,这是一个模板设计模式? 我只 ...
分类:
数据库 时间:
2020-02-04 23:50:06
阅读次数:
115
我今天学习了spark sql Spark SQL可以很好地支持SQL查询,一方面,可以编写Spark应用程序使用SQL语句进行数据查询,另一方面,也可以使用标准的数据库连接器(比如JDBC或ODBC)连接Spark进行SQL查询,这样,一些市场上现有的商业智能工具(比如Tableau)就可以很好地 ...
分类:
其他好文 时间:
2020-02-04 23:28:25
阅读次数:
81
一、大数据spark spark环境在昨天已经全部搭建成功了 跟着b站的尚硅谷大数据往后学习了6个知识点,视频号:av62992342 学习了关于RDD的一系列知识。 课程学习进度:20/126 二、《一线架构师实践指南》阅读 阅读了第四章 需求结构化与分析约束影响 ...
分类:
其他好文 时间:
2020-02-04 23:22:57
阅读次数:
79
1.spark中partition的概念partition是RDD的最小单元,是盛放文件的盒子,一个文件可能需要多个partition,但是一个partition只能存放一个文件中的内容,partition是spark计算中,生成的数据在计算空间内最小单元,2.fileWriter.flush()f ...
分类:
其他好文 时间:
2020-02-04 20:10:54
阅读次数:
81
其实,一开始我应聘的是Spark,Hadoop这样的,然后后面呢,发现只有Java的业务给我写了,再后面我发现,公司招不到前端,所以前端要由后端来写,刺激!!!数据驱动首先要明白一个概念,那就是DOM其实是数据的一种映射,在之前jQuery的时代,当数据发生改变时,我们需要手动改变DOM,而Vue的... ...
分类:
其他好文 时间:
2020-02-04 11:01:46
阅读次数:
90