Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。 Sqoop导入原理: 在导入 ...
分类:
其他好文 时间:
2020-02-12 14:33:53
阅读次数:
82
一、获取数据 1.导入数据: from sklearn import datasets from sklearn import datasets iris=datasets.load_iris() #导入数据集 x=iris.data #获得特征向量 y=iris.target #获得样本lable ...
分类:
其他好文 时间:
2020-02-11 16:01:11
阅读次数:
60
Hive简介 http://www.coin163.com/it/4435084950725826127 Hive的数据类型 https://cloud.tencent.com/developer/article/1165300 把HDFS上的数据导入到Hive中等操作 https://www.cn ...
分类:
Web程序 时间:
2020-02-09 16:14:33
阅读次数:
73
看反压 通常最后一个被压高的subTask的下游就是job的瓶颈之一 看checkpoint时长 checkpoint时长能在一定程度影响job的整体吞吐 看核心指标 延迟和吞吐是最重要的指标 资源使用率 提高资源利用率是最终目的。排查首先看GC 常见性能问题 JSON序列化和反序列化 MAP和Se ...
分类:
其他好文 时间:
2020-02-09 11:43:28
阅读次数:
80
Spark写HBase 要通过Spark向 HBase 写入数据,我们需要用到PairRDDFunctions.saveAsHadoopDataset的方式。 package cn.com.win import org.apache.hadoop.hbase.HBaseConfiguration i ...
分类:
其他好文 时间:
2020-02-08 00:03:34
阅读次数:
53
本文源码: "GitHub·点这里" || "GitEE·点这里" 一、文档类型简介 1、Excel文档 Excel一款电子表格软件。直观的界面、出色的计算功能和图表工具,在系统开发中,经常用来把数据转存到Excel文件,或者Excel数据导入系统中,这就涉及数据转换问题。 2、PDF文档 PDF是 ...
分类:
编程语言 时间:
2020-02-07 11:05:14
阅读次数:
73
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。本文我们将依据传统机器学习的流程,看看在每一步流程中都有哪些常用的函数以及它们的用法是怎么样的。希望你看完这篇文章可以最为快速的开始你的学习任务。 1. 获取数据 1.1 导入s ...
分类:
其他好文 时间:
2020-02-06 19:45:45
阅读次数:
61
本次记录是用于:SparkStreaming对接Kafka、HBase记录 一、简介 ①HBase本身是一个菲关系型数据库,存储数据结构时以key-value结构来进行存储,HBase中的数据是稀疏的。 ②基于Hadoop运行,但是HBase的效率在秒级别 ③基于列存储:传统行存储方式在查询特定列时 ...
分类:
其他好文 时间:
2020-02-06 16:53:41
阅读次数:
101
1,背诵单词:outlook:前景,展望 operate:做手术 peach:桃子 rank:排列 oxygen:氧气 overseas:海外的 particular:特别的 paste:粘贴 patch:眼罩 pack:包裹 participate:参加 overtake:追上 modern:现代 ...
分类:
其他好文 时间:
2020-02-06 01:48:50
阅读次数:
92
今天没有继续整数据,这个数据还需要进一步的清洗,很麻烦,暂时不想清洗,今天看了一部分spark的内容,在网上查找了一些资料,明天将使用eclipse连接spark进行编程实验,或者进行数据的清洗。 今天也将数据导入到了数据库中。 ...
分类:
其他好文 时间:
2020-02-03 19:08:28
阅读次数:
48