码迷,mamicode.com
首页 >  
搜索关键字:计算框架    ( 492个结果
大数据:Parquet文件存储格式
一、Parquet的组成 Parquet仅仅是一种存储格式,它是语言、平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎和计算框架都已适配,并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。 查询引擎: ...
分类:其他好文   时间:2017-10-17 15:28:28    阅读次数:342
hadoop之 Hadoop1.x和Hadoop2.x构成对比
Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker; Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS:HA、NameNode Federation ...
分类:其他好文   时间:2017-10-16 23:23:09    阅读次数:237
DataFlow编程模型与Spark Structured streaming
流式(streaming)和批量( batch):流式数据,实际上更准确的说法应该是unbounded data(processing),也就是无边界的连续的数据的处理;对应的批量计算,更准确的说法是bounded data(processing),亦即有明确边界的数据的处理。 近年来流式计算框架编 ...
分类:其他好文   时间:2017-10-14 19:49:00    阅读次数:209
分布式技术追踪 2017年第四十一期
分布式系统实践 1. Apache Beam实战指南之基础入门 https://mp.weixin.qq.com/s/rrGR7sWRkrOZ82TrrqFT9Q 摘要: Beam是一套能同时支持流式和批量计算框架的SDK, 可以方便的实现业务逻辑同时灵活的选择不同的运行框架而无需修改代码, 本文是 ...
分类:其他好文   时间:2017-10-13 21:21:06    阅读次数:143
GitHub 上 57 款最流行的开源深度学习项目【转】
GitHub 上 57 款最流行的开源深度学习项目【转】 2017-02-19 20:09 334人阅读 评论(0) 收藏 举报 2017-02-19 20:09 334人阅读 评论(0) 收藏 举报 分类: deeplearning(28) 分类: deeplearning(28) from: h ...
分类:其他好文   时间:2017-10-12 20:19:10    阅读次数:227
Spark之 spark简介、生态圈详解
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html 1、简介 1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在201 ...
分类:其他好文   时间:2017-10-11 20:39:54    阅读次数:218
AI 也开源:50 大开源 AI 项目 (转)
这些开源AI项目专注于机器学习、深度学习、神经网络及其他应用场合。 自IT界早期以来,研制出能像人类那样“思考”的机器一直是研究人员的一大目标。在过去几年,计算机科学家们在人工智能(AI)领域已取得了巨大进展,如今这项技术日益普及开来。 事实上,Gartner预测“到2020年,AI技术实际上将普遍 ...
分类:其他好文   时间:2017-09-15 10:03:39    阅读次数:329
【Streaming】30分钟概览Spark Streaming 实时计算
本文主要介绍四个问题: 什么是Spark Streaming实时计算? Spark实时计算原理流程是什么? Spark 2.X下一代实时计算框架Structured Streaming Spark Streaming相对其他实时计算框架该如何技术选型? 本文主要针对初学者,如果有不明白的概念可了解之 ...
分类:其他好文   时间:2017-09-12 16:01:23    阅读次数:226
CTR预估算法
GBRT(Gradient Boost Regression Tree)渐进梯度回归树,XGBoost是GBRT的一个工程实现 LR(Logistics Regression )逻辑回归 Spark Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。Sp ...
分类:编程语言   时间:2017-09-09 22:27:01    阅读次数:381
HDFS优缺点
HDFS解决大数据存储的问题 HDFS优点 高容错性 数据自动保存多个副本 副本丢失后自动恢复 适合批处理 移动计算而非数据 数据位置暴露给计算框架 适合大数据处理 GB、TB、甚至PB级数据 百万规模以上的文件数据量 10K+结点 可构建在廉价机器上(为啥-->因为有高容错性,即使机器挂了数据也不 ...
分类:其他好文   时间:2017-09-06 23:51:28    阅读次数:160
492条   上一页 1 ... 19 20 21 22 23 ... 50 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!