1.基于Receiver的方式 这种方式使用Receiver来接收kafka中的数据,Receiver是基于kafka的高层Consumer API来实现的。Receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处 ...
                            
                            
                                分类:
其他好文   时间:
2020-06-15 22:58:10   
                                阅读次数:
60
                             
                    
                        
                            
                            
                                    基本思想 与flink流的join原理不同的是,Spark双流join是对俩个流做满外连接 ,因为网络延迟等关系,不能保证每个窗口中的数据key都能匹配上,这样势必会出现三种情况:(some,some),(None,some),(Some,None),根据这三种情况,下面做一下详细解析: (some ...
                            
                            
                                分类:
其他好文   时间:
2020-06-15 21:21:14   
                                阅读次数:
156
                             
                    
                        
                            
                            
                                    Spark文档阅读之Programming Guides - Quick Start。学习spark-shell任务提交方法和独立spark任务的创建和提交执行。 ...
                            
                            
                                分类:
其他好文   时间:
2020-06-15 20:41:53   
                                阅读次数:
51
                             
                    
                        
                            
                            
                                    企业介绍: 中国电信上海理想信息产业(集团)有限公司,成立于1999年,注册资本7000万元,是上海市投资规模较大的信息技术企业之一。母公司员工500多人,其中80%以上员工具有大学本科以上学历,从事软件开发人员超过50%,是一个典型的“知识密集型”企业。 通过整合公司内各事业部多年大型项目实施的整 ...
                            
                            
                                分类:
其他好文   时间:
2020-06-15 00:04:45   
                                阅读次数:
78
                             
                    
                        
                            
                            
                                1添加pom.xml配置 <build> <sourceDirectory>src/main/scala</sourceDirectory> <testSourceDirectory>src/test/scala</testSourceDirectory> <plugins> <plugin> <g ...
                            
                            
                                分类:
数据库   时间:
2020-06-14 18:56:57   
                                阅读次数:
138
                             
                    
                        
                            
                            
                                    代码: import re import datetime from pyspark.sql import SparkSession from pyspark import SparkContext from elasticsearch import Elasticsearch spark=Spar ...
                            
                            
                                分类:
编程语言   时间:
2020-06-14 17:09:05   
                                阅读次数:
125
                             
                    
                        
                            
                            
                                    1. 用idea的maven项目 package 打包, 去 Linux 执行 spark-submit --class com.Spark_HDFS --master local ./SXC-1.0-SNAPSHOT.jar 遇到 找不到主类 , 这时候需要更加稳定的打包方式 去打包 scala  ...
                            
                            
                                分类:
其他好文   时间:
2020-06-14 12:57:57   
                                阅读次数:
127
                             
                    
                        
                            
                            
                                    1.kudu事物 strong的事务,kudu的事务和架构受spanner和calvin系统的启发 Transaction Semantics ( 事务语义 ) 不支持多行事物。 2.查询条件关联语句,应用场景,性能测试 创建关联表 CREATE TABLE spark_kudu_test(id1  ...
                            
                            
                                分类:
数据库   时间:
2020-06-14 10:53:29   
                                阅读次数:
645
                             
                    
                        
                            
                            
                                    企业介绍: 中国电信上海理想信息产业(集团)有限公司,成立于1999年,注册资本7000万元,是上海市投资规模较大的信息技术企业之一。母公司员工500多人,其中80%以上员工具有大学本科以上学历,从事软件开发人员超过50%,是一个典型的“知识密集型”企业。 通过整合公司内各事业部多年大型项目实施的整 ...
                            
                            
                                分类:
其他好文   时间:
2020-06-14 01:27:26   
                                阅读次数:
98
                             
                    
                        
                            
                            
                                首先,先安装jdk.我安装的是jdk14.下载界面如下所示: 接下来配置path,java_home两个环境变量即可。 接下来安装scala 我安装的scala是2.13.2版本。 接下来安装hadoop ...
                            
                            
                                分类:
其他好文   时间:
2020-06-13 23:05:23   
                                阅读次数:
66