一、大数据简述 在互联技术飞速发展过程中,越来越多的人融入互联网。也就意味着各个平台的用户所产生的数据也越来越多,可以说是爆炸式的增长,以前传统的数据处理的技术已经无法胜任了。比如淘宝,每天的活跃用户量是很大的一个数目。马云之前说过某个省份的女性bar的size最小问题,不管是玩笑还什么,细想而知, ...
分类:
其他好文 时间:
2019-12-22 21:44:58
阅读次数:
116
由于把hadoop的以下配置项 <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> 改为 <property> <name>fs.defaultFS</name> <value>h ...
分类:
其他好文 时间:
2019-12-20 20:56:44
阅读次数:
92
HDFS的组成,NameNode,DataNode,SecondaryNameNode作用? HDFS是什么? HDFS的优缺点: HDFS的块大小,为什么不能太大,也不能太小? ...
分类:
其他好文 时间:
2019-12-20 20:29:13
阅读次数:
103
一,hive 权限授权模型 1、Storage Based Authorization in the Metastore Server基于存储的授权(也就是HDFS的授权模型) - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。2、SQL St ...
分类:
其他好文 时间:
2019-12-20 13:52:44
阅读次数:
104
1 概述 解决hadoop启动hdfs时,datanode无法启动的问题。错误为: 2 问题描述 执行start-dfs.sh后,根据打印日志,可以看到分别执行了NameNode、DataNode的操作。 但是执行jps查看启动结果时,返现DataNode并没有启动。 3 查找问题 很是费解,刚刚还 ...
分类:
编程语言 时间:
2019-12-19 21:14:13
阅读次数:
131
#!/bin/bash# # desc : 定期移动文件到HDFS目录下# Script Name : mv clikcLog File to NFS# Code By : frank# mail : maoxiangyi@jd.com;anjianbing@jd.com# #初始化配置信息src_ ...
分类:
其他好文 时间:
2019-12-19 15:58:43
阅读次数:
69
当今世界,互联网、大数据应用迅猛发展,物联网、人工智能、云计算技术日新月异,随之而来的是各种企业和个人应用持续不断地产生亿级甚至是百亿级的海量小文件。这些小文件的元数据管理、存储性能以及访问效率等问题因而成为学术界和工业界公认的难题。例如,国内目前最大的电商网站淘宝存储的商品图片超过200亿张,这些文件的平均大小仅为15KB左右,国外著名的社交网站Facebook存储的图片总量更是超过了600亿张
分类:
其他好文 时间:
2019-12-18 19:02:34
阅读次数:
85
GlusterFS概述 GlusterFS系统是一个可扩展的网络文件系统,相比其他分布式文件系统,GlusterFS具有高扩展性、高可用性、高性能、可横向扩展等特点,并且其没有元数据服务器的设计,让整个服务没有单点故障的隐患。 文件存储通常支持POSIX接口(如glusterfs,但GFS、HDFS ...
分类:
其他好文 时间:
2019-12-17 10:30:36
阅读次数:
122
采集类型: 全量 采集: 相当于每天整张表做个快照,在hdfs上就是一个分区 ,表比较小 增量采集: 采集每天增加的部分 1、流水型数据 : 写入数据库数据不再发生变化(如日志,交易流水) , 第二天处理前一天的数据 采集条件可设为1/ 按时间增量的抽取 ,sqoop: create_time>=T ...
分类:
其他好文 时间:
2019-12-16 13:05:35
阅读次数:
113
Hbase启动出问题 2019-12-15 09:59:57,183 WARN [hadoop:16000.activeMasterManager] hdfs.DFSClient: DFS Read org.apache.hadoop.hdfs.BlockMissingException: Coul ...
分类:
其他好文 时间:
2019-12-15 23:53:26
阅读次数:
859