搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

spark学习（一） --spark基本概念和任务调度

（一）RDD、DataFream、DataSet 理解 1. RDD理解 (1) RDD定义为弹性分布式数据集合。 MR运算之间数据共享差： MR的计算之间的数据共享只能通过将数据写入外部存储系统。后一步计算需要从外部存储系统中加载进来的方式进行。 Spark 思路相反，设计了一种抽象-RDD（弹性 ...

分类：其他好文时间：2020-11-10 10:31:29 阅读次数：3

Hive数据导出的几种方式

在hive的日常使用中，经常需要将hive表中的数据导出来，虽然hive提供了多种导出方式，但是面对不同的数据量、不同的需求，如果随意就使用某种导出方式，可能会导致导出时间过长，导出的结果不满足需求，甚至造成集群资源不必要的浪费。因此本文主要对hive支持的几种导出方式的使用进行整理，并给出每种导出 ...

分类：其他好文时间：2020-11-07 17:31:45 阅读次数：24

经典教程 | 基于Spark GraphX实现微博二度关系推荐

经典教程|基于SparkGraphX实现微博二度关系推荐导读：图计算是近几年大数据领域非常受关注的热点，社交网络中的好友关系推荐是一种典型图计算场景，本文是微博关系项目团队在二度关系计算中的一些实践，供高可用架构读者参考，作者为王舜、蒋生武、田瑞林。关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好

分类：其他好文时间：2020-11-07 17:07:30 阅读次数：27

Hadoop namenode高可用性分析：QJM核心源代码解读

Hadoopnamenode高可用性分析：QJM核心源代码解读背景介绍HDFSnamenode在接受写操作时会记录日志，最早HDFS日志写本地，每次重启或出现故障后重启，通过本地镜像文件＋操作日志，就能还原到宕机之前的状态，不会出现数据不一致。如果要做高可用(HA)，日志写在单个机器上，这个机器磁盘出现问题，重启就恢复不了，导致数据不一致，出现的现象就是新建的文件不存在，删除成功的还在等诡异现象。

分类：其他好文时间：2020-11-07 17:00:30 阅读次数：24

Hadoop使用实例

1.词频统计 a.下载喜欢的电子书或大量文本数据，并保存在本地文本文件中 b.编写map与reduce函数 c.本地测试map和reduce d.将文本数据上传到HDFS上 e.用hadoop streaming提交任务 f.查看运行结果 g.计算结果取回本地 ...

分类：其他好文时间：2020-11-07 16:36:45 阅读次数：33

Hadoop使用实例

1.下载喜欢的电子书或大量文本数据，并保存在本地文件夹中 2.编写map与reduce函数 3.本地测试map与reduce 4.将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 ...

分类：其他好文时间：2020-11-07 16:32:22 阅读次数：17

Hadoop实例

1.下载喜欢的电子书或大量文本数据，并保存在本地文本文件中 2编写map与reduce函数 3本地测试map与reduce 4将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 ...

分类：其他好文时间：2020-11-07 16:17:20 阅读次数：18

机器学习平台痛点与模型提升方法：基于Spark的机器学习平台在点融网风控应用介绍

机器学习平台痛点与模型提升方法：基于Spark的机器学习平台在点融网风控应用介绍编者按：大数据和机器学习是近年来快速增长的热门领域，各个领域的数据量和数据规模都以惊人的速度增长。本文是近期举行的架构实践日点融网刘利就“机器学习平台在点融网业务的应用介绍”这一话题的精彩分享。作者简介：刘利，点融网DataScientistTeam负责人，从事互联网数据分析和数据挖掘近十年。现任点融网DataScie

分类：其他好文时间：2020-11-07 15:58:21 阅读次数：20

TXT格式文件插入Hbase

将.txt格式文件插入Hbase中，代码如下 package addHbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.ap ...

分类：其他好文时间：2020-11-06 02:49:19 阅读次数：37

Flink从入门到真香（Flink介绍）

关于概念的东西，其实官网说的很全，对于个人理解就是，flink、spark等等大数据处理平台就是把原来需要我们自己实现的功能，全部框架封装好，像是跨机器的大规模计算、内存/cpu等等资源管理、状态管理(锁还有恢复机制等等）框架全部封装好了，作为开发来说就只需要关心自己要实现的业务就可以了以下内容来自官网，从3个方面介绍Flink：架构ApacheFlink是一个框架和分布式处理引擎，用于在无边界和

分类：其他好文时间：2020-11-06 02:27:17 阅读次数：21

共26003条上一页 1 ... 39 40 41 42 43 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)