码迷,mamicode.com
首页 >  
搜索关键字:sparksql hivecontext    ( 324个结果
推荐系统大规模特征工程与FEDB的Spark基于LLVM优化
今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。大规模推荐系统特征工程介绍SparkSQL与FESQL架构设计基于LLVM的Spark性能优化推荐系统与Spark优化总结大规模推荐系统特征工程介绍推荐系统在新闻推荐、搜索引擎、广告投放以及最新很火的短视频App中都有非常广阔的应用,可以说绝大部分互联网企业和传统企业都可以通过推荐系统来提升
分类:数据库   时间:2020-07-14 09:27:20    阅读次数:72
半小时,利用FEDB将你的Spark SQL模型变为在线服务
SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用SparkSQL在特征变换主要有一下几类1.多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表2.使用udf进行简单的特征变换,比如对时间戳进行hour函数处理3.使用时间窗口和udaf
分类:数据库   时间:2020-07-09 17:54:20    阅读次数:99
spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析
用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:数据库   时间:2020-06-29 00:44:59    阅读次数:129
sparksql系列(九) spark多job提交,spark多目录处理
在生产环境中遇到了这种情况:spark程序需要处理输入是多个目录,输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改,最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理,在此记录一下。 程序中所有异常处理,建议都在函数里面处理好,不要直接写一些处理代码。这样 ...
分类:数据库   时间:2020-06-27 00:17:57    阅读次数:80
数据仓库基础
四、知识点 1. 数据仓库基本介绍 英文名称为==Data Warehouse==,可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==,为企业提供==决策支持==(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同 ...
分类:其他好文   时间:2020-06-26 20:18:34    阅读次数:59
入门大数据---SparkSQL外部数据源
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:数据库   时间:2020-06-26 18:39:56    阅读次数:61
入门大数据---SparkSQL联结操作
一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSession.builder().appName("aggregations").master("local[ ...
分类:数据库   时间:2020-06-26 18:28:15    阅读次数:72
入门大数据---SparkSQL常用聚合函数
一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...
分类:数据库   时间:2020-06-26 18:03:35    阅读次数:58
Hive、Spark SQL、Impala比较
Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关 ...
分类:数据库   时间:2020-06-25 21:29:31    阅读次数:581
SparkSql 隐式转换异常
一、Sparksql隐式转换时异常描述 Cannot create encoder for Option of Product type, because Product type is represented as a row, and the entire row can not be null ...
分类:数据库   时间:2020-06-12 14:59:06    阅读次数:120
324条   上一页 1 2 3 4 ... 33 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!