搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

[随笔]VSCode Remote-ssh+云主机搭建pySpark学习环境

最近spark上机练习比较多，原先采用了虚拟机的方式做练习第一机器性能比较差，本地体验不好第二用vscode比较多，轻量好用又熟悉所以周末抽时间把环境布到开发机上去构建流程: 安装vscode 安装msys2/mingw等模拟shell环境，安装ssh相关组件这个可以偷个懒直接装 git ...

分类：其他好文时间：2020-05-16 18:39:35 阅读次数：133

学习记录CombineFileInputFormat类

基本摘自网上给自己做一记录，如有错误请斧正 CombineFileInputFormat是一个抽象类。Hadoop提供了两个实现类CombineTextInputFormat和CombineSequenceFileInputFormat。其继承关系如下： InputFormat >FileInpu ...

分类：其他好文时间：2020-05-16 17:13:54 阅读次数：87

DataSphere安装配置

linkis： links/conf/conf.sh deployUser=hadoop ### The install home path of LinkisLINKIS_INSTALL_HOME=/home/hadoop/Install/Linkis #Must provided WORKSPA ...

分类：Web程序时间：2020-05-16 17:13:40 阅读次数：123

Kafka学习之路

基础概念 Kafka最初是由Linkedin公司开发，是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，可以实时的处理大量数据以满足各种需求场景：基于hadoop的批处理系统、低延迟的实时系统、storm/spark流式处理引擎、web/nginx日志、访问日志、消息服 ...

分类：其他好文时间：2020-05-16 00:14:31 阅读次数：73

配置hadoop本地开发环境

配置本地hadoop开发环境配置在Eclipse环境中管理hdfs目录 ...

分类：其他好文时间：2020-05-15 14:07:05 阅读次数：81

在CDH中安装Spark2

第一步，需要在CDH上安装Spark 2，由于我的CDH是5.15.x，只能通过CDS的方式安装。官方指导在https://docs.cloudera.com/documentation/spark2/latest/topics/spark2.html。总结下，需要手动下载cds文件上传到CM服务 ...

分类：其他好文时间：2020-05-15 13:51:05 阅读次数：77

hive启动时 java.net.ConnectException:拒绝连接

原因： 1.防火墙没关闭（对应端口没有打开） 2.hadoop集群没有启动成功 3.hadoop集群处于安全模式 4.网络问题解决方案： 1.关闭防火墙 2.jps查看进程，出现下面几个进程则启动成功。 hdfs三个进程中，datanode和namenode只有一个启动成功，可能是namenode ...

分类：编程语言时间：2020-05-15 13:11:20 阅读次数：271

ModuleNotFoundError: No module named 'pyspark' 解决方案

出现问题的原因是在执行python xxx.py 时系统找不到相关资源 Windows中：由于我的Windows中没有装Spark，所以直接安装了Python的第三方包，pycharm中直接引用就行了 pip install pyspark Linux中：我的是Ubuntu18.04，自己在里面 ...

分类：其他好文时间：2020-05-15 09:58:55 阅读次数：408

FAILED: HiveException java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.me

启动hive之后执行查询语句报错如下：分析得知：hive的数据库MySQL在安装的时候没有初始化解决办法：初始化数据库 schematool dbType mysql initSchema 出现下面这个界面则表示初始化成功验证：原文链接：https://blog.csdn.net/weixi ...

分类：编程语言时间：2020-05-15 09:42:18 阅读次数：74

Hdfs手动执行Balance

问题发现：经巡检，服务器中一台节点的hadoop磁盘占用过多，是其它节点的三倍，导致数据严重不均衡。解决过程：两种命令： hadoop的bin目录下，运行命令start-balancer.sh -threshold 5 hdfs balancer -threshold 5 两者的执行效果是一样 ...

分类：其他好文时间：2020-05-15 00:40:42 阅读次数：149

共26003条上一页 1 ... 108 109 110 111 112 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)