码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
乱谈马拉松和mapreduce的关系
做为一个业务马拉松爱好者和一个不太专业的IT从业者(十多年开发不会,业务略懂,没形成自己的价值体系,啥啥没心得,得过且过十几年),在马拉松的时候想到了这个对照关系。 那就随便写写,看到了博君一笑。 hadoop的map阶段,是通过transform操作,将数据进行转换,这个阶段数据都是在各个机器上, ...
分类:其他好文   时间:2020-06-08 00:39:55    阅读次数:61
在hadoop集群下启动hbase的方法
hbase已经配置好 开始使用hbase时 先启动hadoop集群 start-all.sh(前提是在bashrc中配置export PATH=$PATH:$HADOOP_HOME/sbin export PATH=$PATH:$HAOOP_HOME/bin) 然后start-hbase.sh,启动 ...
分类:其他好文   时间:2020-06-08 00:39:09    阅读次数:68
Hive的压缩存储和简单优化
一、Hive的压缩和存储 1,MapReduce支持的压缩编码 压缩格式 工具 算法 文件扩展名 是否可切分 对应的编码/解码器 DEFLATE 无 DEFLATE .deflate 否 org.apache.hadoop.io.compress.DefaultCodec Gzip gzip DEF ...
分类:其他好文   时间:2020-06-07 19:08:04    阅读次数:65
Centos7安装部署Hadoop集群
简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput
分类:其他好文   时间:2020-06-06 23:16:21    阅读次数:84
基于es 5.4和es 5.6,列举的是个人工作中经常用到的查询(只是工作中使用的是Java API)
轉自 https://cloud.tencent.com/developer/article/1512622 ES的常用查询与聚合 2019-09-242019-09-24 18:02:41阅读 1.1K0 0 说明 基于es 5.4和es 5.6,列举的是个人工作中经常用到的查询(只是工作中使用的 ...
分类:编程语言   时间:2020-06-06 18:43:32    阅读次数:54
hadoop mr 执行完毕,无法查看日志
Failed redirect for xxxxxxxxxxx Failed while trying to construct the redirect url to the log server. Log Server url may not be configured Unknown cont ...
分类:其他好文   时间:2020-06-06 13:18:10    阅读次数:96
spark wordcount案例
案例 POM文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instanc ...
分类:其他好文   时间:2020-06-06 11:19:08    阅读次数:48
[bug] Window远程连接hdfs错误:java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComput
原因 hadoop.dll 版本问题 解决 查询远程主机中hadoop版本,下载相同或稍高版本的hadoop.dll,将下载的 hadoop.dll 复制到windows系统的c:/window/system32/下 参考 https://blog.csdn.net/Constantdropping ...
分类:编程语言   时间:2020-06-06 09:25:40    阅读次数:69
ACA - 大数据开发套件 DataIDE
#DataIDE产品概述 ####大数据开发套件(Data IDE)是阿里云数加重要的Paas平台产品,基于MaxCompute作为核心的计算、存储引擎,提供了海量数据的离线加工分析、数据挖掘的能力。提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。 ###1.数据 ...
分类:其他好文   时间:2020-06-05 21:27:23    阅读次数:120
数据湖方案:Hudi、Delta、Iceberg深度对比
目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。 其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 ...
分类:其他好文   时间:2020-06-05 14:44:10    阅读次数:362
19831条   上一页 1 ... 66 67 68 69 70 ... 1984 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!