搜索关键字：spark 大数据 hadoop spark-sql，搜索到29965个结果！码迷,mamicode.com！

Ubuntu上的Hbase集群搭建

到http://mirror.bit.edu.cn/apache/hbase/下载对应的Hbase版本我这里下载的是hbase-2.2.6-bin.tar.gz版本，是较稳定的版本。解压： tar -zxvf /home/hadoop/桌面/hbase-2.2.6-bin.tar.gz 移动位置 ...

分类：系统相关时间：2020-10-18 09:47:54 阅读次数：26

hive小文件处理

先搬个砖：一：Hive是什么 Hive是面向大数据的数据仓库，是一种将SQL转换为mapreduce的工具。二：mapreduce的基本流程及阶段可进行的优化操作（其实有很多不用设置有默认的设置或设置后反而执行时间长，此处做了解，参考设置在下一节）附上网上的一张老图（虽然老但是很具有代表性， ...

分类：其他好文时间：2020-10-16 11:19:02 阅读次数：24

大数据-LSM树

LSM(Log-Structured MergeTree) 树 LSM树核心思想是放弃部分读能力，换取写入的最大化能力。LSM 树的核心思路其实非常简单，就是假定内存足够大，因此不需要每次有数据更新就必须将数据写入到磁盘中，而可以先将最新的数据驻留在内存中，等到积累到足够多之后，再使用归并排序的方式 ...

分类：其他好文时间：2020-10-16 11:14:04 阅读次数：23

【BAT面试通关手册】覆盖Java相关29个技能，学完之后吊打面试官！

这是一份涵盖了Java相关29个技能的Java架构进阶学习资料,绝对是全网最好全完整的一个学习文档资料了。下面给大家介绍一下这份【BAT面试手册】都有哪些知识点的详细解析。需要领取完整版的老铁请转发+关注，然后添加我的VX（tkzl6666）获得免费领取方式! 1、JVM 线程 JVM内存区域 J ...

分类：编程语言时间：2020-10-16 10:27:24 阅读次数：24

递归（面试高频题）

递归（面试高频题）就是一个方法，自身调用自身，但递归不适用于较大数据计算，会导致计算器内存不足从而崩溃递归包含两个部分：递归头：什么时候不调用自身方法。如果没有递归头，就会陷入死循环。递归体：什么时候需要调用自身方法。递归的算法公式 package weiwei.method;public ...

分类：其他好文时间：2020-10-13 17:48:50 阅读次数：43

spring-boot-route（十四）整合Kafka

在上一章中SpringBoot整合RabbitMQ，已经详细介绍了消息队列的作用，这一种我们直接来学习SpringBoot如何整合kafka发送消息。 kafka简介 kafka是用Scala和Java语言开发的，高吞吐量的分布式消息中间件。高吞吐量使它在大数据领域具有天然的优势，被广泛用来记录日志 ...

分类：编程语言时间：2020-10-13 17:35:42 阅读次数：33

2020 秋招阿里巴巴大数据面试带答案！

猫场面试题第 1 套以下为我为大家整理的猫场面试题第一套，均为笔者自己参加面试或者一些读者分享给我的题目，保证真实和准确性。 1 框架部分 1.1 Spark 提交 job 流程所谓提交流程，其实就是我们开发人员根据需求写的应用程序通过 Spark 客户端提交给 Spark 运行环境执行计算的流 ...

分类：其他好文时间：2020-10-13 17:19:39 阅读次数：26

Hadoop框架：NameNode工作机制详解

NameNode运行时元数据需要存放在内存中，同时在磁盘中备份元数据的fsImage，当元数据有更新或者添加元数据时，修改内存中的元数据会把操作记录追加到edits日志文件中，这里不包括查询操作。如果NameNode节点发生故障，可以通过FsImage和Edits的合并，重新把元数据加载到内存中，此时SecondaryNameNode专门用于fsImage和edits的合并。

分类：其他好文时间：2020-10-12 20:32:44 阅读次数：26

算法基础

算法基础数据分析数学基础在进行算法建模时，深入了解数据情况，做各类探索性分析，统计建模等工作非常重要，这方面对一些数学基础知识有一定的要求，例如概率论，统计学等。这方面除了经典的数学教材，也可以参考更程序员向的《统计思维》，《贝叶斯方法》，《程序员的数学2》等书籍。自我考核：理解实际项目中的 ...

分类：编程语言时间：2020-10-10 17:55:27 阅读次数：24

redis集群扩容

1.集群的数据迁移在工作中经常会遇到redis集群的扩容的场景，因为当一个集群服务器中的内存不够用无法支撑更大数据量的缓存或者并发量不够（个人理解），就会将原有的集群扩展。集群扩容需要将集群中原有的master节点上的槽位以及数据迁移到新加入的master节点上。每个槽都把要里面的数据迁移完才能 ...

分类：其他好文时间：2020-10-09 21:40:42 阅读次数：46

共29965条上一页 1 ... 48 49 50 51 52 ... 2997 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)