package operationMysql import config.conf.{sc, spark_session} import org.apache.spark.sql.DataFrame object readingMysqlOperation { def main(args: Arra ...
分类:
数据库 时间:
2020-04-03 00:21:17
阅读次数:
126
1.环境hadoop-2.6.0 spak2.1.1 scala-sdk-2.11.12 2.maven项目创建 3.pom 4.阿里云settings配置 <?xml version="1.0"?> <settings xsi:schemaLocation="http://maven.apache ...
分类:
其他好文 时间:
2020-04-02 19:37:02
阅读次数:
213
一:什么是SparkSQL? (一)SparkSQL简介 Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务,提交 ...
分类:
数据库 时间:
2020-04-02 15:36:01
阅读次数:
88
最近(以及预感接下来的一年)会读很多很多的paper......不如开个帖子记录一下读paper心得 New Hardware / non volatile memory .... Streaming .... Cloud / Distributed PolarFS: An Ultra-low La ...
分类:
数据库 时间:
2020-04-02 00:54:56
阅读次数:
96
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:
其他好文 时间:
2020-04-01 00:56:20
阅读次数:
58
我使用了4台虚拟机centos7来搭建环境, 2个主结点(一般是一个,但为了体验zookeeper,万一其中一个master挂掉呢,另外一个会自动启动接管), 2个从结点 注意:下面的配置主要以主节点为例进行说明 第一步:同步四台机器的时钟 sudo yum install ntpdate,确保已安 ...
分类:
系统相关 时间:
2020-03-31 22:59:21
阅读次数:
97
WordCount是大数据学习最好的入门demo,今天就一起开发java版本的WordCount,然后提交到Spark3.0.0环境运行; 版本信息 OS: Window7 JAVA:1.8.0_181 Hadoop:3.2.1 Spark: 3.0.0-preview2-bin-hadoop3.2 ...
参考 https://data-flair.training/blogs/install-apache-spark-multi-node-cluster/ 下载 spark 地址为 http://spark.apache.org/downloads.html 准备三个节点 192.168.1.1 [ ...
分类:
其他好文 时间:
2020-03-31 19:04:21
阅读次数:
228
通过上文 Window7 开发 Spark 应用 ,展示了如何开发一个Spark应用,但文中使用的测试数据都是自己手动录入的。 所以本文讲解一下如何搭建一个开发闭环,本里使用了Nginx日志采集分析为例,分析页面访问最多的10个,404页面的10。 如果把这些开发成果最终展示到一个web网页中,在这 ...
一、背景 在爬虫方面包括图片,文字,视频,音频等的获取。受到速度的限制,视频的爬取较为麻烦,因为视频是进行切片处理的采取的方式是hls,这是苹果公司制定的一个方案。它会把内容切片,用.m3u8进行组织,在m3u8里面记录了断点的位置,将所有的片段下载下来在拼接就可以连接成整个视频。目前较大的视频都是 ...
分类:
编程语言 时间:
2020-03-31 18:43:18
阅读次数:
1475