1、Sqoop参数 /opt/module/sqoop/bin/sqoop import \ --connect \ --username \ --password \ --target-dir \ --delete-target-dir \ --num-mappers \ --fields-ter ...
分类:
其他好文 时间:
2020-10-06 21:17:18
阅读次数:
41
一、连接SQL package com.njbdqn.linkSql import java.util.Properties import org.apache.spark.sql.SparkSession import org.apache.spark.sql._ object LinkSql { ...
分类:
数据库 时间:
2020-10-06 20:52:59
阅读次数:
35
Receiver Direct offset注意点 ...
分类:
其他好文 时间:
2020-10-06 20:46:36
阅读次数:
26
Q1:xpinyin模块打包之后显示找不到指定文件Mandarin.dat description: 见标题 answer: 在Anaconda\Lib\site-packages\xpinyin路径下找到__init__.py 然后在__init__.py中编辑,找到 data_path = os ...
分类:
其他好文 时间:
2020-10-05 22:32:11
阅读次数:
56
搭建hadoop伪分布式环境时,要先搭建hadoop环境,参考 url: https://www.cnblogs.com/gzgBlog/p/13702720.html 1.进入hadoop配置文件目录 cd /app/hadoop-2.2.0/etc/hadoop 2.修改core-site.xm ...
分类:
其他好文 时间:
2020-09-23 23:32:22
阅读次数:
46
1.了解对比Hadoop不同版本的特性,可以用图表的形式呈现。 DKhadoop发行版:有效的集成了整个HADOOP生态系统的全部组件,并深度优化,重新编译为一个完整的更高性能的大数据通用计算平台,实现了各部件的有机协调。因此DKH相比开源的大数据平台,在计算性能上有了高达5倍(最大)的性能提升。D ...
分类:
其他好文 时间:
2020-09-23 22:58:58
阅读次数:
34
在flink集群中提交了一个job报错如下大概看出是没有DataNode,这让人很奇怪 通过jps命令在主节点看到了namenode,但是在DataNode端执行jps没有DataNode [root@devopes ~]# jps 5347 TaskManagerRunner 18788 Name ...
分类:
其他好文 时间:
2020-09-18 17:26:11
阅读次数:
71
Kafka是Apache下的一个子项目,是一个高性能跨语言分布式发布/订阅消息队列系统,吞吐速率非常快,可以作为Hadoop的日志收集。Kafka是一个完全的分布式系统,这一点依赖于Zookeeper的分布式实现。 本文为新手准备,从Kafka的一些术语概念方面去认识Kafka。 Broker Ka ...
分类:
其他好文 时间:
2020-09-18 17:19:41
阅读次数:
37
Hadoop HA 集群搭建 Hadoop HA 集群搭建Hadoop 完全分布式环境搭建集群规划集群部署前提Hadoop伪分布式环境搭建配置IP映射安装 Java 与 Hadoop配置 Hadoop配置 MapReduce 与 YARN集群配置配置基本参数配置 SSH 免密登录格式化 HDFS启动 ...
分类:
其他好文 时间:
2020-09-18 03:33:30
阅读次数:
38
一、大数据 大数据的特性 (一)大体量,可从数百TB,PB,EB (二)多样性,大数据包括各种格式和形态的数据 (三)时效性,很多大数据需要在一定的时间限度下得到及时处理 (四)准确性,处理的结果一定要准备性 (五)大价值,大数据包含很多的深度的价值,大数据分析挖掘和利用将带来巨大的商业价值 二、H ...
分类:
其他好文 时间:
2020-09-18 02:20:12
阅读次数:
35