码迷,mamicode.com
首页 >  
搜索关键字:spark history    ( 9960个结果
R数据框的行列数
# abc的类型为tbl_spark class(abc) #"tbl_spark" #列名 colnames(abc) #行数 abc %>% count() # 把abc转为data frame a <- data.frame(abc) class(a) #"data.frame" #行列数 d ...
分类:其他好文   时间:2020-11-21 12:35:33    阅读次数:5
深入探讨HBASE
HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HB... ...
分类:其他好文   时间:2020-11-20 12:05:39    阅读次数:11
【问题】Spark Streaming批次处理耗时问题排查
Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路
分类:其他好文   时间:2020-11-18 13:12:54    阅读次数:8
Spark Stuctured Streaming 读取文件夹数据
package com.atguigu.structure.streaming import org.apache.spark.sql.streaming.Trigger import org.apache.spark.sql.{DataFrame, SparkSession} import org ...
分类:其他好文   时间:2020-11-16 13:25:07    阅读次数:3
12个行业月均阅读超100亿,看Spark如何助力微博Feed算法提升活跃度
12个行业月均阅读超100亿,看Spark如何助力微博Feed算法提升活跃度#编者按:本文由高可用架构向黄波约稿,介绍黄波在SparkSummitChina2016中的演讲精华,并侧重对微博系统和Feed系统进行了更多的介绍。黄波,2010年加入新浪微博,微博研发中心Feed技术专家,负责微博Feed流排序和推荐相关项目。目前专注于基于Spark、Storm等计算平台的大数据处理,致力于将分布式计
分类:编程语言   时间:2020-11-16 13:06:48    阅读次数:9
初识设计模式
初识设计模式 What is Design Patterns what is it Consist of History of Patterns Why shall we learn it Classification of patterns ...
分类:其他好文   时间:2020-11-12 13:55:33    阅读次数:11
spark学习(一) --spark基本概念和任务调度
(一)RDD、DataFream、DataSet 理解 1. RDD理解 (1) RDD定义为弹性分布式数据集合。 MR运算之间数据共享差: MR的计算之间的数据共享只能通过将数据写入外部存储系统。后一步计算需要从外部存储系统中加载进来的方式进行。 Spark 思路相反,设计了一种抽象-RDD(弹性 ...
分类:其他好文   时间:2020-11-10 10:31:29    阅读次数:3
经典教程 | 基于Spark GraphX实现微博二度关系推荐
经典教程|基于SparkGraphX实现微博二度关系推荐导读:图计算是近几年大数据领域非常受关注的热点,社交网络中的好友关系推荐是一种典型图计算场景,本文是微博关系项目团队在二度关系计算中的一些实践,供高可用架构读者参考,作者为王舜、蒋生武、田瑞林。关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好
分类:其他好文   时间:2020-11-07 17:07:30    阅读次数:27
002. Linux基础二 (命令行/括号拓展、TAB、history)
1.命令行扩展1.1``和$()$(CMD)OR`CMD`比较""‘‘``三者的区别结论单引号:变量和命令都不认识,当做普通字符串反向单引号:变量和命令都识别,并且会将反向单引号的内容当成命令进行执行后,再交给调用反向单引号的命令继续双引号:不能识别命令,可以识别变量[root@centos7~]#echo"echo$HOSTNAME"echocentos7[r
分类:系统相关   时间:2020-11-07 16:56:47    阅读次数:27
机器学习平台痛点与模型提升方法:基于Spark的机器学习平台在点融网风控应用介绍
机器学习平台痛点与模型提升方法:基于Spark的机器学习平台在点融网风控应用介绍编者按:大数据和机器学习是近年来快速增长的热门领域,各个领域的数据量和数据规模都以惊人的速度增长。本文是近期举行的架构实践日点融网刘利就“机器学习平台在点融网业务的应用介绍”这一话题的精彩分享。作者简介:刘利,点融网DataScientistTeam负责人,从事互联网数据分析和数据挖掘近十年。现任点融网DataScie
分类:其他好文   时间:2020-11-07 15:58:21    阅读次数:20
9960条   上一页 1 ... 19 20 21 22 23 ... 996 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!