码迷,mamicode.com
首页 >  
搜索关键字:ambari hadoop hbase hive spark    ( 26003个结果
[随笔]VSCode Remote-ssh+云主机搭建pySpark学习环境
最近spark上机练习比较多,原先采用了虚拟机的方式做练习 第一机器性能比较差,本地体验不好 第二用vscode比较多,轻量好用又熟悉 所以周末抽时间把环境布到开发机上去 构建流程: 安装vscode 安装msys2/mingw等模拟shell环境,安装ssh相关组件 这个可以偷个懒直接装 git ...
分类:其他好文   时间:2020-05-16 18:39:35    阅读次数:133
学习记录CombineFileInputFormat类
基本摘自网上给自己做一记录,如有错误请斧正 CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。 其继承关系如下: InputFormat >FileInpu ...
分类:其他好文   时间:2020-05-16 17:13:54    阅读次数:87
DataSphere安装配置
linkis: links/conf/conf.sh deployUser=hadoop ### The install home path of LinkisLINKIS_INSTALL_HOME=/home/hadoop/Install/Linkis #Must provided WORKSPA ...
分类:Web程序   时间:2020-05-16 17:13:40    阅读次数:123
Kafka学习之路
基础概念 Kafka最初是由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,可以实时的处理大量数据以满足各种需求场景:基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎、web/nginx日志、访问日志、消息服 ...
分类:其他好文   时间:2020-05-16 00:14:31    阅读次数:73
配置hadoop本地开发环境
配置本地hadoop开发环境 配置在Eclipse环境中管理hdfs目录 ...
分类:其他好文   时间:2020-05-15 14:07:05    阅读次数:81
在CDH中安装Spark2
第一步,需要在CDH上安装Spark 2,由于我的CDH是5.15.x,只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。 总结下,需要手动下载cds文件上传到CM服务 ...
分类:其他好文   时间:2020-05-15 13:51:05    阅读次数:77
hive启动时 java.net.ConnectException:拒绝连接
原因: 1.防火墙没关闭(对应端口没有打开) 2.hadoop集群没有启动成功 3.hadoop集群处于安全模式 4.网络问题 解决方案: 1.关闭防火墙 2.jps查看进程,出现下面几个进程则启动成功。 hdfs三个进程中,datanode和namenode只有一个启动成功,可能是namenode ...
分类:编程语言   时间:2020-05-15 13:11:20    阅读次数:271
ModuleNotFoundError: No module named 'pyspark' 解决方案
出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中: 由于我的Windows中没有装Spark,所以直接安装了Python的第三方包,pycharm中直接引用就行了 pip install pyspark Linux中: 我的是Ubuntu18.04,自己在里面 ...
分类:其他好文   时间:2020-05-15 09:58:55    阅读次数:408
FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me
启动hive之后执行查询语句报错如下: 分析得知:hive的数据库MySQL在安装的时候没有初始化 解决办法:初始化数据库 schematool dbType mysql initSchema 出现下面这个界面则表示初始化成功 验证: 原文链接:https://blog.csdn.net/weixi ...
分类:编程语言   时间:2020-05-15 09:42:18    阅读次数:74
Hdfs手动执行Balance
问题发现: 经巡检,服务器中一台节点的hadoop磁盘占用过多,是其它节点的三倍,导致数据严重不均衡。 解决过程: 两种命令: hadoop的bin目录下,运行命令start-balancer.sh -threshold 5 hdfs balancer -threshold 5 两者的执行效果是一样 ...
分类:其他好文   时间:2020-05-15 00:40:42    阅读次数:149
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!