搜索关键字：spark streaming数据源flume实战，搜索到7001个结果！码迷,mamicode.com！

Spark SQL的官网解释

一.官网位置1.位置2.解释官网位置DataSet1.6出现的SchemaRDD<1.31.3版本前叫SchemaRDD1.3以后叫DataFrameDataSet支持Scala,JAVA不支持pythonDataFrame支持四种JAVA,Scala.Python,RDataFrame:并不是sparksql独创的，原来就有的，从其他框架借鉴过来的二.DataFrame注意事项1.注意分布

分类：数据库时间：2020-01-05 09:39:35 阅读次数：76

Spark和Kafka在IDEA整合运行时提示''com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1''

使用kafka和sparkstreaming整合时，IDEA运行程序报错"com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1"，初步看是版本不兼容，但是版本后面确认没有问题， ...

分类：移动开发时间：2020-01-05 09:29:41 阅读次数：291

大数据才是重点，Oracle、SQL Server成昨日黄花？

引子有人在某个专注SQL的公众号留言如下：这个留言触碰到一个非常敏感的问题：搞关系型数据库还有前途吗？现在都2020年了，区块链正火热，AI人才已经“过剩”，大数据都成了稀松平常的萝卜白菜，你却还在搞SQLServer?你还在搞SQL?原因最近10年，数据管理领域的变化可谓精彩纷呈。什么Hadoop,Spark，MemcacheDB,Redis,Vertica,HANA,Cassandra,Mon

分类：数据库时间：2020-01-04 16:59:14 阅读次数：113

8、Yarn资源调度系统架构与原理分析

本文详细的介绍了Hadoop的Yarn架构与原理分析

分类：其他好文时间：2020-01-03 19:39:26 阅读次数：84

spark-streaming对接kafka的两种方式

spark-streaming对接kafka有两种方式：1.基于receiver的方式，属于高级API，简单但是效率低，容易丢失数据（可以设置WAL）。它的原理是：receiver从kafka拉取数据存储到executor的内存中，spark-streaming启动job处理数据。偏移量保存在zoo ...

分类：其他好文时间：2020-01-03 14:07:49 阅读次数：84

2019-12-30面试反思

面试公司: 一家中小型电商面试中的问题: 思路不要太跳跃性, 不然容易尬。引导的时候脑子需要快速运转该说什么。自己熟的那块一定要准备充分答出百分之80以上。排序算法, 选一个说: 建议快排, 归并, 面试前手写一下找找感觉。挖坑桶排: 需要对难点做准备: 按照什么条件分桶? 空间利用率的优 ...

分类：其他好文时间：2019-12-31 20:08:27 阅读次数：108

2.Spark 2.x 集群部署和测试

配置免密度登录执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车，生成的密钥对 id_rsa， id_rsa.pub，默认存储在~/.ssh 目录下现在给slave1节点设置公钥执行 ssh-keygen -t rsa#建立 ssh 目录,一路敲回车，生成的密钥对 i ...

分类：其他好文时间：2019-12-31 19:01:20 阅读次数：105

Hadoop分布式集群安装

一整体介绍 1.1 硬件环境本文使用三台服务器搭建hadoop集群，使用Centos7.5系统，服务器均有独立ip 1.2 部署的软件部署服务：namenode（HA）,resourcemanager（HA）,zookeeper，hbase（HA）,spark,kafka,geomesa 版本 ...

分类：其他好文时间：2019-12-31 14:12:21 阅读次数：94

再识spark

一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile ...

分类：其他好文时间：2019-12-30 14:16:01 阅读次数：89

spark初识

一.简介 1.什么是spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduc ...

分类：其他好文时间：2019-12-30 14:10:45 阅读次数：100

共7001条上一页 1 ... 74 75 76 77 78 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)