码迷,mamicode.com
首页 >  
搜索关键字:hadoop 大数据 云计算    ( 28457个结果
面试官为什么喜欢拿 Kafka 考验求职者
小灰工作3年了,一直在一家初创公司做大数据架构师,最近几次大厂的面试经历都百般不顺,小灰心如死灰,想着如果一直跳槽无望,只能跟着时下最火的地摊儿大军一起去出摊儿谋生了。 被问到了为什么要使用 Kafka,有哪种场景下需要使用 JMS,小灰一脸问号。工作几年来,接触了 Kafka,Elasticsea ...
分类:其他好文   时间:2020-06-05 13:10:08    阅读次数:56
CDH6.3.2 启用Kerberos 集成使用phoenix
CDH6.3.2启用Kerberos集成使用phoenix标签(空格分隔):大数据平台构建一、下载并安装Phoenixparcel二、安装CSD文件三、在ClouderaManager中添加Phoenix服务(前提是已经安装了HBase服务)四、配置HBase以用于Phoenix五、验证Phoenix安装与冒烟测试六、导入数据验证测试七、七:关于phoinex的schema与hbase的names
分类:其他好文   时间:2020-06-05 00:31:53    阅读次数:121
大数据中台之Kafka,到底好在哪里?
今天给大家分享一个大数据里面很火的技术——Kafka,Kafka是一个分布式的消息系统,其高性能在圈内很出名。本人阅读过多个大数据生态的开源技术的源码,个人感觉Kafka的源码质量是比较高的一个,如果有同学感兴趣的话,可以拿来阅读一下。网上也有不少的文章分析Kafka的性能为什么那么好,但是我感觉很多文章都没说到点上,所以今天借着这个机会跟大家交流一下kafka的性能为什么那么好?优秀设计之基于N
分类:其他好文   时间:2020-06-04 21:57:26    阅读次数:100
Redis中遍历大数据量的key:keys与scan命令
keys命令 keys * 、keys id:* 分别是查询全部的key以及查询前缀为id:的key。 缺点: 1、没有 offset、limit 参数,一次返回所有满足条件的 key。 2.keys算法是遍历算法,复杂度是O(n),也就是数据越多,时间复杂度越高。 3.数据量达到几百万,keys这 ...
分类:其他好文   时间:2020-06-04 19:45:43    阅读次数:113
pandas处理Excel数据的应用
最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用pandas就会非常高效,基本上3行代码可以搞定你20行代码的操作!该教程仅仅限于结合柠檬班的全栈自动 ...
分类:其他好文   时间:2020-06-04 15:28:17    阅读次数:71
大数据分析领域模型有哪些
数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型,是纯粹从科学角度出发定义的。  1.降维  在面对海量数据或大数据进行数据挖掘时,通常会面临“维度灾难”,原因是数据集的维度可以不断增加直至无穷多,但计算机的处理能力和速度却是有限的;另外,数据集的大量维度之间可能存在共线性的关系,这会直接导致学习模型的健壮性不够,甚至很多时候算法结果会失效。因此,我们需要降低维度数量并降
分类:其他好文   时间:2020-06-04 15:26:58    阅读次数:247
大数据数据仓库架构设计基础概念和设计思想整理
一、ODS层ODS 全称是 Operational Data Store,一般对应的是操作性数据存储,直接面向主题的,也叫数据运营层,通常是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就是通常说的 ETL 之后的数据存入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而 ...
分类:其他好文   时间:2020-06-04 14:09:23    阅读次数:125
杉岩数据创始人陈坚:新基建需要以数据为核心的“新存储”
"新型基础设施是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。"——国家发改委创新和高新技术发展司司长伍浩新基建涵盖了众多的数字化基础设施:云计算、人工智能、工业互联网、5G、物联网、数据中心、智能计算中心等信息基础设施,以智能交通、智慧能源为代表的融合基础设施。可以看出,新基建技术中最核心的资
分类:其他好文   时间:2020-06-04 12:04:53    阅读次数:92
C++泛型程序设计及STL的结构
泛型程序设计的基本概念 编写不依赖于具体数据类型的程序 将算法从特定的数据结构中抽象出来,成为通用的 C++的模板为泛型程序设计奠定了关键的基础 术语:概念 用来界定具备一定功能的数据类型。例如: 将“可以比大小的所有数据类型(有比较运算符)”这一概念记为Comparable 将“具有公有的复制构造 ...
分类:编程语言   时间:2020-06-04 10:32:02    阅读次数:67
Kafka的生产者优秀架构设计
Kafka是一个高吞吐量的分布式的发布订阅消息系统,在全世界都很流行,在大数据项目里面使用尤其频繁。笔者看过多个大数据开源产品的源码,感觉Kafka的源码是其中质量比较上乘的一个,这得益于作者高超的编码水平和高超的架构设计能力。Kafka的核心源码分为两部分:客户端源码和服务端源码,客户端又分为生产者和消费者,而个人认为Kafka的源码里面生产者的源码技术含量最高,所以今天给大家剖析Kafka的生
分类:其他好文   时间:2020-06-04 01:31:44    阅读次数:50
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!