码迷,mamicode.com
首页 >  
搜索关键字:spark 大数据 hadoop spark-sql    ( 29965个结果
Hive的基本介绍
什么是Hive? Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将SQL转化成MapReduce程序。 1、Hive 处理的数据存储在HDFS; 2、Hiv ...
分类:其他好文   时间:2020-12-03 11:43:46    阅读次数:3
Flink之流式框架的对比
Flink的优势和特点: 一、同时支持高吞吐、低延迟、高性能 Flink是目前开源社区中唯一一套集高吞吐、低延迟、高性能三者于一身的分布式流式数据处理框架。Apache Spark也只能兼顾高吞吐和高性能特点,主要是因为Spark Streaming流式计算中无法做到低延迟保障;而流式计算框架Apa ...
分类:其他好文   时间:2020-12-03 11:33:38    阅读次数:5
大数据学习(14)—— HBase进阶
HBase读写流程 在网上找了一张图,这个画的比较简单,就拿这个图来说吧。 写流程 1.当Client发起一个Put请求时,首先访问Zookeeper获取hbase:meta表。 2.从hbase:meta表查询即将写入数据的Region位置。 3.Client向目标RegionServer发出写命 ...
分类:其他好文   时间:2020-12-02 12:39:17    阅读次数:7
zookeeper技术介绍[python书籍福利]
zookeeper技术介绍[python书籍福利]Zookeeper技术介绍ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和
分类:编程语言   时间:2020-12-02 11:57:17    阅读次数:3
Cloudera Manager的基本使用
>.ClouderaManager功能 1.1>.管理监控集群主机(主要监控硬件和软件的信息); 1.2>.同一管理配置(主要是针对服务,比如hdfs,hbase等等); 1.3>.管理维护Hadoop平台系统; 2>.ClouderaManager的一些常见名词 2.1>.主机-host 2.2> ...
分类:其他好文   时间:2020-12-01 11:54:36    阅读次数:3
kakafka - 为CQRS而生fka - 为CQRS而生
前段时间跟一个朋友聊起kafka,flint,spark这些是不是某种分布式运算框架。我自认为的分布式运算框架最基础条件是能够把多个集群节点当作一个完整的系统,然后程序好像是在同一台机器的内存里运行一样。当然,这种集成实现方式有赖于底层的一套消息系统。这套消息系统可以把消息随意在集群各节点之间自由传 ...
分类:其他好文   时间:2020-11-30 16:09:25    阅读次数:9
Paper Pal:一个中英文论文及其代码大数据搜索平台
点击上方蓝字关注我们 Paper Pal:一个中英文论文及其代码大数据搜索平台 余万, 付聿炜, 熊贇, 朱扬勇 1 引言 在开展科研工作的过程中,科研人员需要从大量实时更新的论文中持续地跟踪学术界前沿的发展情况,学习最新研究成果。近年来,人工智能(artificial intelligence, ...
分类:其他好文   时间:2020-11-30 15:52:07    阅读次数:8
Python字典里的5个黑魔法
Python里面有3大数据结构:列表,字典和集合.字典是常用的数据结构,里面有一些重要的技巧用法,我把这些都整理到一起,熟练掌握这些技巧之后,对自己的功力大有帮助.1.字典的排序:用万金油sorted()函数举一个简单的例子my_dict={"cc":100,"aa":200,"bb":10}print(sorted(my_dict.it
分类:编程语言   时间:2020-11-27 11:11:14    阅读次数:8
那些Python集合中神秘的招式
Python有3大数据类型,列表,字典和集合,列表和字典前面我都讲过了,今天我们来聊聊Python中的集合.Python的书里面完整全面讲集合的不多,即使有的也只是简单带过,笔墨不多。大部分介绍Python数据结构都是被列表,字典两大网红遮盖了锋芒.貌似集合在Python的世界里很冷门,其实集合里面的东西很有用,有它特定的适用的场景,特别是在数据处理的时候.大显身手.那么说起集合,很多人一定想到了
分类:编程语言   时间:2020-11-27 11:10:27    阅读次数:8
Spark开发_Spark的UDF开发
###Spark中的UDF Spark1.6只能创建临时UDF,不支持创建持久化的UDF。 从Spark-2.0开始,SparkSQL支持持久化的UDF,目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字 ...
分类:其他好文   时间:2020-11-26 15:06:55    阅读次数:6
29965条   上一页 1 ... 36 37 38 39 40 ... 2997 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!