在spark streaming读取kafka的数据中,spark streaming提供了两个接口读取kafka中的数据,分别是KafkaUtils.createDstream,KafkaUtils.createDirectStream,前者会自动把offset更新到zk中,默认会丢数据,效率低, ...
分类:
其他好文 时间:
2020-01-31 01:00:37
阅读次数:
82
今天完成了spark实验二,花费的时间太多,没由大到预期的计划。另外打包过程中下载时候遇到链接打不开404是不影响下载的,完成打包的学习。 下边是今天的实验。 2, 模拟图形绘制 对于一个图形绘制程序,用下面的层次对各种实体进行抽象。定义一个 Drawable 的特质,其包括一个 draw 方法,默 ...
分类:
其他好文 时间:
2020-01-30 23:15:16
阅读次数:
95
Spark安装 参照教程安装Spark 和 Scala 参考链接:http://dblab.xmu.edu.cn/blog/1307-2/ 环境:Linux 已安装Hadoop spark官方下载地址:http://spark.apache.org/downloads.html 参照图中内容下载sp ...
分类:
其他好文 时间:
2020-01-30 23:07:30
阅读次数:
70
一、实验目的 (1)通过实验掌握基本的 MLLib 编程方法; (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和 预测等。 二、实验平台 操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 数据集:下载 Adult 数 ...
分类:
其他好文 时间:
2020-01-29 23:28:10
阅读次数:
134
今日把之前用sbt打包Scala程序剩下的东西学习完了,在学习使用maven打包java程序中遇到了初次打包下载依赖包下载不了,目标网址404的问题,留在明天解决。 安装了scala进行了相关的实验。 明日计划学习使用Eclipse编写Spark应用程序(Scala+Maven)和(Scala+SB ...
分类:
其他好文 时间:
2020-01-29 23:12:50
阅读次数:
89
spark 1. Spark的四大特性 1. 速度快 spark比mapreduce快的两个原因 1. 基于内存 2. 进程与线程 2. 易用性 1. 可以用java、scala、python、R等不同的语言来快速编写spark程序 3. 通用性 4. 兼容性 1. spark程序有多种运行模式 s ...
分类:
其他好文 时间:
2020-01-29 10:40:55
阅读次数:
58
今天把Scala的Java独立应用编程解决了,安装了maven,并且测试了一下Java应用程序代码,以及用maven打包 Java程序,并通过spark-submit 运行程序,过程比较顺利,但是在安装sbt时验 sbt 是否可用,需要下载依赖包,但是我的一直 卡在这里 重新弄会出错,所以先弄了一下 ...
分类:
其他好文 时间:
2020-01-29 00:58:27
阅读次数:
80
(一)进入spark-shell命令界面(默认使用scala的命令界面) 1,如果进入了spark安装目录则使用、 1,一台机器启动spark:./bin/spark-shell --master <master-url>命令可进入shell界面,master-url参数可为:local[*]使用逻 ...
分类:
其他好文 时间:
2020-01-29 00:48:18
阅读次数:
82
今天打算开始学习spark,年前重装了电脑系统,安装完系统,安装了软件工程的必备软件及数据库等 打开虚拟机时发现旧版本的wmware已经无法在新的win10系统上运行,Wmware pro15在win 10 1903上不能用 网上搜索教程发现在1903版本就已经出现这个问题,而我现在的版本是1909 ...
分类:
其他好文 时间:
2020-01-28 22:53:03
阅读次数:
62
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68