前言 Kafka 是一款分布式消息发布和订阅系统,具有高性能、高吞吐量的特点而被广泛应用与大数据传输场景。它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Apache 基金会的一个顶级项目。kafka 提供了类似 JMS 的特性,但是在设计和实现上是完全不同的,而且他也不是 ...
分类:
编程语言 时间:
2021-01-19 11:48:43
阅读次数:
0
# 先定义dataframe各列的数据类型 from pyspark.sql.types import *schema = StructType([ StructField("a", NullType(), True), StructField("b", AtomicType(), True), S ...
分类:
其他好文 时间:
2021-01-18 11:29:36
阅读次数:
0
CLOUD 一、云计算 什么是云计算 基于互联网的相关服务的增加、使用和交付模式 这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池 这些资源能够被快速提供,只需要投入很少的管理工作,或与服务供应商进行很少的交互 通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源 国际知名云 ...
分类:
其他好文 时间:
2021-01-18 11:00:14
阅读次数:
0
有序集合有两种编码方式:压缩列表 ziplist 和跳表 skiplist。 ...
分类:
其他好文 时间:
2021-01-16 12:09:10
阅读次数:
0
1. 设置执行引擎 set hive.execution.engine=mr;set hive.execution.engine=spark; 如果设置执行引擎为MR,那么调用Hadoop的maprecude来运行需要执行的job的程序; 如果设置执行引擎为spark,那么就会调用spark来执行任 ...
分类:
其他好文 时间:
2021-01-15 12:15:21
阅读次数:
0
解决Hadoop HA集群 NameNode 无法自动故障转移(切换active) 在学习 HA 自动化配置,按照hadoop官网:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSHighAvaila ...
分类:
其他好文 时间:
2021-01-15 12:13:12
阅读次数:
0
热身30题 1.描述一下HDFS的写流程 2.描述一下HDFS的读流程 3.详细讲解一下HDFS的体系结构 4.如果一个datanode出现宕机,恢复流程是什么样的? 5.通常你是如何解决Haddop的NameNode宕机的,流程是什么? 6.描述一下NameNode对元数据的管理 7.NameNo ...
分类:
其他好文 时间:
2021-01-14 10:47:06
阅读次数:
0
多样化用户体验(Multiexprience)与大前端 随着云计算、移动化、IoT、AI 等技术概念地落地和持续发展,社会的数字化进程在不断加速。Gartner 近期发布了新的企业应用架构方法论 MASA(Mesh Application and Service Architechture,网格应用 ...
分类:
其他好文 时间:
2021-01-13 10:43:09
阅读次数:
0
虚拟机克隆 a. vim /etc/udev/rules.d/70-persistent-net.rules 更改网卡名 b. vim /etc/sysconfig/network-scripts/ifcfg-eth0 更新网卡 c. vim /etc/sysconfig/network 更改主机名 ...
分类:
其他好文 时间:
2021-01-12 10:50:26
阅读次数:
0
原文链接:https://blog.csdn.net/qq_26803795/article/details/106522611 文章目录 一、前言 二、内置分词器解析 2.1、内置分词器梳理 2.2、内置分词器对中文的局限性 三、安装IK分词器 3.1、下载IK分词器 3.2、编译源码包 3.3、 ...
分类:
其他好文 时间:
2021-01-12 10:47:41
阅读次数:
0