码迷,mamicode.com
首页 >  
搜索关键字:hadoop 大数据 云计算    ( 28457个结果
ELK-概念
ELK ELK是Elasticsearch、Logstash、Kibana三大开源框架首字母大写简称。市面上也被成为Elastic Stack。 Elasticsearch是一个基于Lucene、分布式、通过Restful方式进行交互的近实时搜索平台框架。像类似百度、谷歌这种大数据全文搜索引擎的场景 ...
分类:其他好文   时间:2020-06-09 16:51:12    阅读次数:54
基于Kerberos认证的大数据权限解决方案
● 系统环境说明 Linux环境:centos7.4 CDH:5.16.1 Java:1.8.0_131 LDAP版本:1.15.1 ● 集群配置 机器数量:50 内存:64G 硬盘:4T CPU核心数:32 Kerberos部署 cdh01.ali.aiwaystack.com作为Kerberos ...
分类:其他好文   时间:2020-06-09 16:33:37    阅读次数:74
大数据处理系统的三大发展趋势
虽然说大数据是在发展的阶段,在诸多的挑战之下,大数据的未来发展依旧是非常明了的。大数据越来越被重视,在发展中也显得尤为重要,促进了城市的智能化发展,大数据催生了更多的新兴产业,那么在未来的发展趋势上有哪些呢?  大数据发展趋势:  其一,大数据目前已经成为了一个势不可挡的趋势,首先针对数据资源化将会成为最有价值的资产,随着大数据应用的发展,现在已经让很多的企业,像是亚马逊,百度,阿里巴巴等企业
分类:其他好文   时间:2020-06-09 15:02:52    阅读次数:131
数据结构:八大数据结构分类
数据结构分类 数据结构是指相互之间存在着一种或多种关系的数据元素的集合和该集合中数据元素之间的关系组成 。常用的数据结构有:数组,栈,链表,队列,树,图,堆,散列表等,如图所示: 每一种数据结构都有着独特的数据存储方式,下面为大家介绍它们的结构和优缺点。 1、数组 数组是可以再内存中连续存储多个元素 ...
分类:其他好文   时间:2020-06-09 12:34:52    阅读次数:90
分布式深度学习DDL解析
分布式深度学习DDL解析 一.概述 给一个庞大的GPU集群,在实际的应用中,现有的大数据调度器会导致长队列延迟和低的性能,该文章提出了Tiresias,即一个GPU集群的调度器,专门适应分布式深度学习任务,该调度器能够有效率的调度并且合适地放置深度学习任务以减少他们的任务完成时间(JCT(Job C ...
分类:其他好文   时间:2020-06-09 09:53:10    阅读次数:76
用它匹配大数据长文本,让你的处理效率提升 100 倍 !
原来文本匹配的方式一直是用中规中矩的正则来做,最近在实际生产中由于数据量骤升,现有数据量提高了大约 3-4 倍,原本使用正则处理已经到了瓶颈,这次又有增量对生产来说可谓雪上加霜,而且随着正则词越加越多,匹配效率也越来越差,数据量的激增再加上正则词越加越多,提升生产的匹配效率已是迫在眉睫。 最近一段时 ...
分类:其他好文   时间:2020-06-08 23:48:44    阅读次数:120
数据分析中样本类别分布不均衡问题
所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均 ...
分类:其他好文   时间:2020-06-08 22:11:31    阅读次数:235
今天的收获
jar包:是用java写的一些类 用的话直接用就不用再写了 。直接用jar包方便许多。 maven:是用jar包的时候只用下载一次就行了 ,下次再用就不用再下载一遍了。 编程似乎在不断完善 ,没有人知道未来是啥。 我在 写spark:是hadoop的完善。因为map和reduce不够用 。 spar ...
分类:其他好文   时间:2020-06-08 20:48:36    阅读次数:46
Mr与spark的shuffle过程详解及对比
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:其他好文   时间:2020-06-08 19:17:29    阅读次数:88
ZStack平台连接iSCSI存储构建云计算服务
ZStack是一个开源的私有云、混合云、公有云、专有云和行业云解决方案项目,可以作为开源OpenStack类解决方案的替代性产品应用于中小型企业或组织环境中提供云计算服务。
分类:其他好文   时间:2020-06-08 17:39:00    阅读次数:74
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!