1.注册函数,使用using jar方式在hdfs上引用udf库。 $hive>create function formattime as 'com.it18zhang.applogs.udf.FormatTimeUDF' using jar 'hdfs://hadoop01/app/app-log... ...
分类:
其他好文 时间:
2019-01-25 18:53:20
阅读次数:
221
如何学习Python 最近开始整理python的资料,会陆续放到博客中存档。找了几个qq群,其中有一个群 "78486745(点击进群)" 。后面就没怎么加群了,还是需要看官方文档为主 python语言基础:(带你熟悉python语言的特性,学会使用python开发环境,使用python开发一些简单 ...
分类:
编程语言 时间:
2019-01-25 18:42:50
阅读次数:
159
项目中用到python操作hdfs的问题,一般都是使用python的hdfs包,然而这个包初始化起来太麻烦,需要: 可以看到python需要指定master的地址,平时Scala使用的时候不用这样,如下: 如果我们要在本地测试和生产打包发布的时候,python这样需要每次修改master地址的方式很 ...
分类:
编程语言 时间:
2019-01-24 13:21:35
阅读次数:
202
HDFS HDFS:分布式文件存储系统 hdfs的工作机制:1、客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负责存储文件块的角色:data node)<准确来说:切块的行为是由客户端决定的> 2、一旦文件被切块存储,那么,hdfs中就必须有一个机制 ...
分类:
其他好文 时间:
2019-01-23 14:34:19
阅读次数:
200
1.修改配置文件core-site.xml,将其中localhost改为虚拟机的ip地址: 在Ubuntu中,打开控制台,使用命令ifconfig查看虚拟机ip,如图: 修改【hadoop安装路径】/etc/hadoop下的core-site.xml文件,如图: 2.安装Hadoop-Eclipse ...
kudu 1.7 官方:https://kudu.apache.org/ 一 简介 kudu有很多概念,有分布式文件系统(HDFS),有一致性算法(Zookeeper),有Table(Hive Table),有Tablet(Hive Table Partition),有列式存储(Parquet),有 ...
分类:
其他好文 时间:
2019-01-21 13:46:36
阅读次数:
110
HDFS HDFS读写过程 写(上传) NameNode:Master主管管理者,管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求; DataNode:Slave,执行NN下达的命令,存储实际的数据块、执行数据块的读写操作; Client:①文件切分,将文件切 ...
分类:
其他好文 时间:
2019-01-20 22:02:33
阅读次数:
201
三、配置Hadoop 1、设置$HADOOP_HOME/conf/hadoop-env.sh 这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称 默认值 说明 JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如: ...
分类:
其他好文 时间:
2019-01-20 20:06:30
阅读次数:
197
(一)编程实现以下功能,并利用 Hadoop 提供的 Shell 命令完成相同任务: (1) 向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件; 上传文件 追加文件 覆盖文件 编程: package org.apache.... ...
分类:
其他好文 时间:
2019-01-20 14:07:39
阅读次数:
140
1.Impala hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 2.Spark 各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发 ...
分类:
其他好文 时间:
2019-01-20 11:46:08
阅读次数:
176