码迷,mamicode.com
首页 >  
搜索关键字:hdfs dfsadmin    ( 4996个结果
hive 中简单的udf函数编写
1.注册函数,使用using jar方式在hdfs上引用udf库。 $hive>create function formattime as 'com.it18zhang.applogs.udf.FormatTimeUDF' using jar 'hdfs://hadoop01/app/app-log... ...
分类:其他好文   时间:2019-01-25 18:53:20    阅读次数:221
Python最佳学习路线
如何学习Python 最近开始整理python的资料,会陆续放到博客中存档。找了几个qq群,其中有一个群 "78486745(点击进群)" 。后面就没怎么加群了,还是需要看官方文档为主 python语言基础:(带你熟悉python语言的特性,学会使用python开发环境,使用python开发一些简单 ...
分类:编程语言   时间:2019-01-25 18:42:50    阅读次数:159
python调用scala或java包
项目中用到python操作hdfs的问题,一般都是使用python的hdfs包,然而这个包初始化起来太麻烦,需要: 可以看到python需要指定master的地址,平时Scala使用的时候不用这样,如下: 如果我们要在本地测试和生产打包发布的时候,python这样需要每次修改master地址的方式很 ...
分类:编程语言   时间:2019-01-24 13:21:35    阅读次数:202
hdfs
HDFS HDFS:分布式文件存储系统 hdfs的工作机制:1、客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负责存储文件块的角色:data node)<准确来说:切块的行为是由客户端决定的> 2、一旦文件被切块存储,那么,hdfs中就必须有一个机制 ...
分类:其他好文   时间:2019-01-23 14:34:19    阅读次数:200
windows中eclipse连接虚拟机hdfs
1.修改配置文件core-site.xml,将其中localhost改为虚拟机的ip地址: 在Ubuntu中,打开控制台,使用命令ifconfig查看虚拟机ip,如图: 修改【hadoop安装路径】/etc/hadoop下的core-site.xml文件,如图: 2.安装Hadoop-Eclipse ...
分类:Windows程序   时间:2019-01-22 11:52:18    阅读次数:274
【原创】大数据基础之Kudu(1)简介、安装
kudu 1.7 官方:https://kudu.apache.org/ 一 简介 kudu有很多概念,有分布式文件系统(HDFS),有一致性算法(Zookeeper),有Table(Hive Table),有Tablet(Hive Table Partition),有列式存储(Parquet),有 ...
分类:其他好文   时间:2019-01-21 13:46:36    阅读次数:110
Hadoop| HDFS
HDFS HDFS读写过程 写(上传) NameNode:Master主管管理者,管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求; DataNode:Slave,执行NN下达的命令,存储实际的数据块、执行数据块的读写操作; Client:①文件切分,将文件切 ...
分类:其他好文   时间:2019-01-20 22:02:33    阅读次数:201
Hadoop入门进阶步步高(三)-配置Hadoop
三、配置Hadoop 1、设置$HADOOP_HOME/conf/hadoop-env.sh 这个文件中设置的是Hadoop运行时需要的环境变量,在1.2.1版中共有19个环境变量,如下: 变量名称 默认值 说明 JAVA_HOME 设置JDK的路径,这个必须设置,否则Hadoop无法启动,值如: ...
分类:其他好文   时间:2019-01-20 20:06:30    阅读次数:197
hdfs基本操作
(一)编程实现以下功能,并利用 Hadoop 提供的 Shell 命令完成相同任务: (1) 向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,则由用户来指定是追加到原有文件末尾还是覆盖原有的文件; 上传文件 追加文件 覆盖文件 编程: package org.apache.... ...
分类:其他好文   时间:2019-01-20 14:07:39    阅读次数:140
大数据的框架与特点
1.Impala hadoop的sql平台、支持hbase/hdfs、支持超大数据、支持多并发、sql支持好、对内存依赖比较严重。需要自己优化,并且有的语句超过内存会报错。 2.Spark 各种格式、各种计算(机器学习、图形计算)、可sql、可代码处理、支持scala/java/python语言开发 ...
分类:其他好文   时间:2019-01-20 11:46:08    阅读次数:176
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!