方式一: SavaAsTable 用法: df.write.mode(SaveMode.Overwrite).insertInto(table) 方式二: InsertInto 用法: df.write.mode(SaveMode.Overwrite).saveAsTable(table) 两种方式 ...
分类:
其他好文 时间:
2020-07-03 01:10:09
阅读次数:
152
大数据开发的最后一环,将数仓中ADS层的数据,导出到MySql,剩下就是Java工程师的事了。 1 在MySql中创建对应的ADS表,字段和类型与数仓中的表一致,略。 2 数据导出脚本。 ①--update-mode updateonly:只更新,无法插入新数据。 allowinsert:允许新增 ...
分类:
数据库 时间:
2020-07-02 23:16:56
阅读次数:
81
程序函数库可分为3种类型:静态函数库(static libraries)、共享函数库(shared libraries)、动态加载函数库(dynamically loaded libraries): 静态函数库,是在程序执行前就加入到目标程序中去了; 共享函数库,则是在程序启动的时候加载到程序中,它 ...
分类:
系统相关 时间:
2020-07-02 16:10:56
阅读次数:
85
windows 10 下面安装tensorflow gpu版本和pycharm中使用 ...
今天学习了一下Hive的自定义函数,于是乎想练习一下在本地编写一个自定义的函数,然后打包上传到集群,再进行执行的过程。但是中间遇到了一些小挫折,就是当我打包的时候,除了导入正常所需要的org.apache.hive包之外,并没导入其他的包。但是开始打包以后,报错了,报错信息如下: Could not ...
分类:
编程语言 时间:
2020-07-01 11:03:18
阅读次数:
199
###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF ...
分类:
其他好文 时间:
2020-06-30 20:22:42
阅读次数:
57
(1)迭代器 可迭代对象和迭代器的解释如下: ''' 什么是对象?Python中一切皆对象,之前我们讲过的一个变量,一个列表,一个字符串,文件句柄,函数名等等都可称作一个对象,其实一个对象就是一个实例,就是一个实实在在的东西。那么什么叫迭代?其实我们在日常生活中经常遇到迭代这个词儿,更新迭代等等,迭 ...
分类:
编程语言 时间:
2020-06-30 17:26:42
阅读次数:
46
一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54
MapReduce计算模型中,如果两个数据集的关联,并不是通过数据集的一个唯一键和另一个数据集的一个唯一键关联,那么会导致大量数据分发到一个节点计算,使其效率极其低下。 这里的MapReduce并不是仅仅是hive中的mapreduce模型,而是计算思想模型,比如spark、flink等,甚至更广阔 ...
分类:
其他好文 时间:
2020-06-30 00:16:31
阅读次数:
68
三范式理解 第一范式: 属性不可分割性 如: 学生表(姓名,年龄,性别,班级,宿舍号,家庭成员) 其中家庭成员为可分割的所以不符合第一范式 第二范式: 不存在组合关键字中的某些字段决定非关键字段的情况 如: (学号, 课程名称) → (姓名, 年龄, 成绩, 学分) 这个数据库表不满足第二范式,因为 ...
分类:
其他好文 时间:
2020-06-29 23:06:38
阅读次数:
102