码迷,mamicode.com
首页 >  
搜索关键字:spark 1.0.0    ( 7001个结果
Spark ml pipeline - transforming feature - StringIndexer
在spark ml pipeline的特征提取和转换阶段,有一种transformer可以将机器学习训练数据中常见的字符串列(例如表示各种分类)转换为数值索引列,以便于计算机处理。它就是StringIndexer。它支持的索引范围为[0, numLabels)(不支持的会编码为numLabels), ...
分类:其他好文   时间:2020-04-04 09:34:33    阅读次数:69
spark streaming不同模式配置
背景 1)试试本地模式的spark streaming 2)试试yarn模式的spark streaming 1、本地模式的spark streaming 代码如下: package com.hxh import org.apache.spark.SparkConf import org.apach ...
分类:其他好文   时间:2020-04-03 19:55:21    阅读次数:63
视频处理工具 FFmpeg 常用实例详解
FFmpeg 是一个专业的多媒体框架,能够解码、编码、转码、复用、解复用、流式传输、过滤和播放几乎所有格式的媒体文件。 其核心就是 FFmpeg 程序本身,是一个基于命令行的视频和音频处理工具,多用于视频转码、基础编辑(修剪和合并)、视频缩放、后期效果制作等场景。 这里通过一些示例简单地介绍下 ff ...
分类:其他好文   时间:2020-04-03 13:46:00    阅读次数:76
scala spark dataframe 修改字段类型
package classifierAlg import config.conf.{sc, spark_session} import config.conf.spark_session.implicits._ import org.apache.spark.sql.functions._ impo ...
分类:其他好文   时间:2020-04-03 12:32:15    阅读次数:282
Spark读取mysql数据库实例
1.Spark可以读取多种数据源,本实例为读取mysql. 2.准备工作: sacla,idea,mysql-connector-java,版本从:https://mvnrepository.com/获取 3.代码示例: object WordFreq { def main(args: Array[ ...
分类:数据库   时间:2020-04-03 11:55:22    阅读次数:92
spark2.0 连接mysql8.0数据库操作表数据
package operationMysql import config.conf.{sc, spark_session} import org.apache.spark.sql.DataFrame object readingMysqlOperation { def main(args: Arra ...
分类:数据库   时间:2020-04-03 00:21:17    阅读次数:126
在idea上运行spark的wordcount
1.环境hadoop-2.6.0 spak2.1.1 scala-sdk-2.11.12 2.maven项目创建 3.pom 4.阿里云settings配置 <?xml version="1.0"?> <settings xsi:schemaLocation="http://maven.apache ...
分类:其他好文   时间:2020-04-02 19:37:02    阅读次数:213
SparkSQl简单使用
一:什么是SparkSQL? (一)SparkSQL简介 Spark SQL是Spark的一个模块,用于处理结构化的数据,它提供了一个数据抽象DataFrame(最核心的编程抽象就是DataFrame),并且SparkSQL作为分布式SQL查询引擎。Spark SQL就是将SQL转换成一个任务,提交 ...
分类:数据库   时间:2020-04-02 15:36:01    阅读次数:88
MapReduce深入
hadoop中map和reduce都是进程(spark中是线程),map和reduce可以部署在同一个机器上也可以部署在不同机器上。 输入数据是hdfs的block,通过一个map函数把它转化为一个个键值对,并同时将这些键值对写入内存缓存区(100M),内存缓存区的数据每满80M就会将这80M数据写 ...
分类:其他好文   时间:2020-04-01 00:56:20    阅读次数:58
Linux下hadoop和spark的基础环境配置准备
我使用了4台虚拟机centos7来搭建环境, 2个主结点(一般是一个,但为了体验zookeeper,万一其中一个master挂掉呢,另外一个会自动启动接管), 2个从结点 注意:下面的配置主要以主节点为例进行说明 第一步:同步四台机器的时钟 sudo yum install ntpdate,确保已安 ...
分类:系统相关   时间:2020-03-31 22:59:21    阅读次数:97
7001条   上一页 1 ... 42 43 44 45 46 ... 701 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!