码迷,mamicode.com
首页 >  
搜索关键字:hive on spark    ( 12366个结果
lucene实战--打分算法没有那么难?
准备工作1.1下载最新源码,https://github.com/apache/lucene-solr1.2编译,按照说明,使用ant进行编译(我使用了anteclipse)1.3.将编译后的文件导入到eclipse,sts或者idea中2.新建测试类publicvoidtest()throwsIOException,ParseException{Analyzeranalyzer=newNGram
分类:编程语言   时间:2020-12-04 11:10:55    阅读次数:5
图解Spark系列:RDD的创建与执行
设计Spark程式过程中最初始的是创建RDD数据集,该数据集来自定义的源数据,当RDD数据集初始后,再通过算子对RDD数据集作转换生成后续的数据集。Spark中提供了多种创建RDD数据集的方法,比如:通过内存集合创建、或使用本地文件创建以及HDFS文件创建RDD数据集。最常见的是第三种方式,生产环境下通常会读取并基于HDFS上存储的数据来创建并进行离线批处理。典型的RDD创建流程为,通过输入算子(
分类:其他好文   时间:2020-12-04 10:59:58    阅读次数:4
Hive的基本介绍
什么是Hive? Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将SQL转化成MapReduce程序。 1、Hive 处理的数据存储在HDFS; 2、Hiv ...
分类:其他好文   时间:2020-12-03 11:43:46    阅读次数:3
Flink之流式框架的对比
Flink的优势和特点: 一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点,主要是因为Spark Streaming流式计算中无法做到低延迟保障;而流式计算框架Apa ...
分类:其他好文   时间:2020-12-03 11:33:38    阅读次数:5
kakafka - 为CQRS而生fka - 为CQRS而生
前段时间跟一个朋友聊起kafka,flint,spark这些是不是某种分布式运算框架。我自认为的分布式运算框架最基础条件是能够把多个集群节点当作一个完整的系统,然后程序好像是在同一台机器的内存里运行一样。当然,这种集成实现方式有赖于底层的一套消息系统。这套消息系统可以把消息随意在集群各节点之间自由传 ...
分类:其他好文   时间:2020-11-30 16:09:25    阅读次数:9
推荐系统架构原理
主要内容 1. 协同过滤思想2. 推荐系统架构3. 推荐系统流程4. 推荐系统处理数据流程。5. python 文件预处理 Hive 数据。6. dubbo 服务使用。 一、协同过滤 协同过滤(Collaborative Filtering)技术,是推荐系统中应用最为广泛的技术之一,协同过滤算法主要 ...
分类:其他好文   时间:2020-11-30 15:32:24    阅读次数:7
Spark开发_Spark的UDF开发
###Spark中的UDF Spark1.6只能创建临时UDF,不支持创建持久化的UDF。 从Spark-2.0开始,SparkSQL支持持久化的UDF,目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字 ...
分类:其他好文   时间:2020-11-26 15:06:55    阅读次数:6
重要 | Spark分区并行度决定机制
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:其他好文   时间:2020-11-23 12:25:04    阅读次数:5
R数据框的行列数
# abc的类型为tbl_spark class(abc) #"tbl_spark" #列名 colnames(abc) #行数 abc %>% count() # 把abc转为data frame a <- data.frame(abc) class(a) #"data.frame" #行列数 d ...
分类:其他好文   时间:2020-11-21 12:35:33    阅读次数:5
认识Hive
认识Hive 从MapReduce到SQL Hive架构 三种安装方式 Hive与关系型数据库的区别 1. 认识Hive 前面我们讲到了mapreduce计算框架,各位需要通过java编码的形式来实现设计运算过程,Hive的设计目的就是为了让精通sql技能而java较弱的分析师能够利用hadoop进 ...
分类:其他好文   时间:2020-11-21 12:33:40    阅读次数:7
12366条   上一页 1 ... 23 24 25 26 27 ... 1237 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!