Hadoop:大数据集群,只能运行在Linux平台RDBMS:表字段、数据类型、约束结构化数据关系数据库在数据中占据重要的地位但不是所有的数据都可以结构化结构化数据:structureddata非结构化数据:unstructureddata半结构化数据:semi-structureddata通常保存为xml,jsonGoogle:pagerank页面算法
分类:
其他好文 时间:
2019-10-22 10:32:44
阅读次数:
108
大数据特征(5V) Velocity(快速的数据流转) Veracity(精准可信赖的大数据) Variety(多样的数据类型) Volume(海量的数据规模) Value(数据价值密度相对较低) 大数据架构 HDFS服务功能 NameNode NameNode是主节点,存储文件的元数据,如文件名, ...
分类:
其他好文 时间:
2019-10-21 16:21:39
阅读次数:
104
一、软硬件环境 CentOS 7.2 64位 OpenJDK-1.8.0 Hadoop-2.7 二、安装SSH客户端 安装ssh: yum install openssh-clients openssh-server安装完成后,使用以下命令测试: ssh localhost输入 root 账户的密码 ...
分类:
其他好文 时间:
2019-10-21 11:37:21
阅读次数:
96
概述hadoop主要是用于应对海量数据的存储和计算的,前面hdfs文件系统,则重点是用于海量数据的存储。那么有了这么多数据,我们又该怎么在这些数据里面来提取我们需要的信息呢?这个时候hadoop中出现了一个非常重要的成员MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1T... ...
分类:
其他好文 时间:
2019-10-21 00:07:46
阅读次数:
95
Apache Kylin 概述 https://www.cnblogs.com/xiaodf/p/11671095.html 1 Kylin是什么 今天,随着移动互联网、物联网、AI等技术的快速兴起,数据成为了所有这些技术背后最重要,也是最有价值的“资产”。如何从数据中获得有价值的信息?这个问题驱动 ...
分类:
Web程序 时间:
2019-10-20 21:35:59
阅读次数:
121
通过手动安装CDH没权限 [root@slave1 ~]# groupadd supergroup[root@slave1 ~]# hadoop fs -mkdir /tao3^C[root@slave1 ~]# usermod -a -G supergroup root[root@slave1 ~ ...
分类:
数据库 时间:
2019-10-20 12:35:51
阅读次数:
186
linux有免密登录,这个功能在搭建hadoop集群时很有用,因为有了它远程启动集群或做其他操作就不需要一遍遍的输入密码了,参考博文下面记录一下。 公钥私钥对 linux下通过ssh-keygen -t rsa命令可以在本机生成一对公钥私钥对(使用的是rsa非对称加密算法,rsa是三个数学家的名字首 ...
分类:
系统相关 时间:
2019-10-20 10:36:02
阅读次数:
91
基于Centos7编译spark指定Hadoop版本 0 摘要 主要探究了如何对spark源码进行编译,以及普及了一下Maven中的-P,-D的意义以及我在编译过程中遇到的两个坑。为什么需要编译spark源码呢?官网已经提供了预编译的版本了啊,但是如果你对spark源码进行了修改或者spark提供了 ...
分类:
其他好文 时间:
2019-10-19 15:02:25
阅读次数:
125
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、集群管理等。 因为Kafka集群是把状态信息保存在Zooke ...
分类:
其他好文 时间:
2019-10-19 09:20:57
阅读次数:
76