程序函数库可分为3种类型:静态函数库(static libraries)、共享函数库(shared libraries)、动态加载函数库(dynamically loaded libraries): 静态函数库,是在程序执行前就加入到目标程序中去了; 共享函数库,则是在程序启动的时候加载到程序中,它 ...
分类:
系统相关 时间:
2020-07-02 16:10:56
阅读次数:
85
本文始发于个人公众号:TechFlow,原创不易,求个关注 今天是spark专题的第七篇文章,我们一起看看spark的数据分析和处理。 过滤去重 在机器学习和数据分析当中,对于数据的了解和熟悉都是最基础的。所谓巧妇难为无米之炊,如果说把用数据构建一个模型或者是支撑一个复杂的上层业务比喻成做饭的话。那 ...
分类:
其他好文 时间:
2020-07-02 13:20:51
阅读次数:
67
RDD加上结构,比如说类名,就可以变成DataFrame,DataFrame,将每一类同这一类的类名绑定在一起就可以称为DataSet. spark sql 就是来处理dataframe和dataset这样的结构数据的。 spark sql使用的时候需要提供spark session环境。 // S ...
分类:
数据库 时间:
2020-07-01 18:40:18
阅读次数:
60
https://blog.csdn.net/qq_41685616/article/details/106136013?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.nonecas ...
分类:
其他好文 时间:
2020-07-01 14:28:22
阅读次数:
808
windows 10 下面安装tensorflow gpu版本和pycharm中使用 ...
今天学习了一下Hive的自定义函数,于是乎想练习一下在本地编写一个自定义的函数,然后打包上传到集群,再进行执行的过程。但是中间遇到了一些小挫折,就是当我打包的时候,除了导入正常所需要的org.apache.hive包之外,并没导入其他的包。但是开始打包以后,报错了,报错信息如下: Could not ...
分类:
编程语言 时间:
2020-07-01 11:03:18
阅读次数:
199
一.Zookeeper基本概念 分布式系统是同时跨越多个物理主机,独立运行的多个软件所组成的系统。分布式系统的协调工作就是通过某种方式,让某个节点的信息能够同步和共享。这依赖于服务进程之间的通信。通信方式有两种: 通过网络进行信息共享 通过共享存储 Zookeeper是作为分布式系统的分布式协同服务 ...
Hadoop的广义与狭义之分 狭义的Hadoop:指的是一个框架,Hadoop是由三部分组成:HDFS:分布式文件系统--》存储;MapReduce:分布式离线计算框架--》计算;Yarn:资源调度框架 广义的Hadoop:广义的Hadoop不仅仅包含Hadoop框架,除了Hadoop框架之外的一些 ...
分类:
其他好文 时间:
2020-06-30 22:14:42
阅读次数:
67
###自定义函数 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。 用户自定义函数类别分为以下三种 UDF ...
分类:
其他好文 时间:
2020-06-30 20:22:42
阅读次数:
57
一、概述 Hive是什么? Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。 最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。它用 ...
分类:
其他好文 时间:
2020-06-30 17:16:56
阅读次数:
54