Amundsen的使命,整理有关数据的所有信息,并使其具有普遍适用性。 这是Amundsen官网的一句话,对于元数据的管理工作,复杂且繁琐。可用的工具很多各有千秋,数据血缘做的较好的应该是Apache Atlas,而数据可视化做的较好的应该是Apache Superset。业界一直需要一个可以整合这 ...
分类:
其他好文 时间:
2021-03-26 15:12:41
阅读次数:
0
前言 接上文,复习整理大数据相关知识点,这章节从MapReduce开始... MapReduce介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务 ...
分类:
其他好文 时间:
2021-03-17 15:09:28
阅读次数:
0
目录 一、Kafka的架构 二、Topics和Partition 三、Producer消息路由 四、Consumer Group 五、Push vs. Pull 六、Kafka delivery guarantee 正文 回到顶部 一、Kafka的架构 如上图所示,一个典型的Kafka集群中包含若干 ...
分类:
其他好文 时间:
2021-03-17 14:25:54
阅读次数:
0
数据应用,是真正体现数仓价值的部分,包括且又不局限于 数据可视化、BI、OLAP、即席查询,实时大屏,用户画像,推荐系统,数据分析,数据挖掘,人脸识别,风控反欺诈,ABtest等等 OLAP(On-Line Analytical Processing):在线分析处理,主要用于支持企业决策管理分析。 ...
分类:
其他好文 时间:
2021-03-16 11:54:33
阅读次数:
0
本系列采用turtle、matplotlib、numpy这三个Python工具,以分形与计算机图像处理的经典算法为实例,通过程序和图像,来帮助读者一步步掌握Python绘图和数据可视化的方法和技巧,并且让读者感受到“ 龙枝屈曲竞分形,瑰丽绮错千万状”的分形魅力。 中国传统中的『分形』 『分』是会意字 ...
分类:
编程语言 时间:
2021-03-15 11:06:57
阅读次数:
0
Spark的五种JOIN策略解析 JOIN操作是非常常见的数据处理操作,Spark作为一个统一的大数据处理引擎,提供了非常丰富的JOIN场景。本文分享将介绍Spark所提供的5种JOIN策略,希望对你有所帮助。本文主要包括以下内容: 影响JOIN操作的因素 Spark中JOIN执行的5种策略 Spa ...
分类:
其他好文 时间:
2021-03-10 13:42:57
阅读次数:
0
课程链接:https://aistudio.baidu.com/aistudio/course/introduce/11939?directly=1&shared=1 从整体的视角来看,深度学习模型解决问题的要点,可以近似总结为:数据、模型、优化方法。 数据处理 要处理图像分类问题,首先就要了解“图 ...
分类:
其他好文 时间:
2021-03-09 13:42:42
阅读次数:
0
前言 最近工作中,需要将查询的一段时间的数据可视化,并导出为word格式。由于对word操作不熟悉,查阅了一下相关文档,这里简要记录一下如何使用python操作word。 说明 本代码来源于官方文档(https://python-docx.readthedocs.io/en/latest/),这里对 ...
分类:
编程语言 时间:
2021-03-06 14:15:46
阅读次数:
0
块(Block): 块是上层软件中(操作文件时)使用的最小的操作单元。 就是(操作文件时)一个块一个块进行操作(块的大小格式化时可以设置【如linux、fatfs等等】)。 块(block),概念来自于文件系统,是内核对文件系统数据处理的基本单位,大小为若干个扇区,常见有512B、1KB、4KB等 ...
分类:
其他好文 时间:
2021-03-04 13:23:53
阅读次数:
0
数据创建 randint 创建随机整数array。 np.random.randint(10,size=(2,3)) randint(low, high=None, size=None, dtype='l') low为必选参数: 若有low与high,则返回两者之间的数据。[low, high)。 ...
分类:
其他好文 时间:
2021-03-03 12:17:41
阅读次数:
0