一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wc cd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop,启动hive start-all.sh hive 3.创建数据库,创建文本 ...
分类:
其他好文 时间:
2020-12-09 12:15:14
阅读次数:
5
[root@node1 tasks]# cat main.yml name: 拷贝JKD到目标服务器 unarchive: src={{ jdk_pkg }} dest={{ jdk_dir }} mode=755 name: 添加环境变量 blockinfile: dest: /etc/profi ...
分类:
其他好文 时间:
2020-12-09 12:12:06
阅读次数:
6
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?为了更好的说明导致问题 ...
分类:
其他好文 时间:
2020-12-08 12:44:11
阅读次数:
4
前言 在本机模拟器的ubuntu18版本上进行的部署测试,参考的官方文档: hadoop: 链接地址 hive: 链接地址 使用的版本: hadoop: 3.2.1 hive: 3.1.2 全程是使用root账号进行的配置。 hadoop安装配置 hadoop使用的是虚拟集群,即单机模拟集群,dat ...
分类:
其他好文 时间:
2020-12-05 10:52:38
阅读次数:
7
准备工作1.1下载最新源码,https://github.com/apache/lucene-solr1.2编译,按照说明,使用ant进行编译(我使用了anteclipse)1.3.将编译后的文件导入到eclipse,sts或者idea中2.新建测试类publicvoidtest()throwsIOException,ParseException{Analyzeranalyzer=newNGram
分类:
编程语言 时间:
2020-12-04 11:10:55
阅读次数:
5
什么是Hive? Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将SQL转化成MapReduce程序。 1、Hive 处理的数据存储在HDFS; 2、Hiv ...
分类:
其他好文 时间:
2020-12-03 11:43:46
阅读次数:
3
主要内容 1. 协同过滤思想2. 推荐系统架构3. 推荐系统流程4. 推荐系统处理数据流程。5. python 文件预处理 Hive 数据。6. dubbo 服务使用。 一、协同过滤 协同过滤(Collaborative Filtering)技术,是推荐系统中应用最为广泛的技术之一,协同过滤算法主要 ...
分类:
其他好文 时间:
2020-11-30 15:32:24
阅读次数:
7
认识Hive 从MapReduce到SQL Hive架构 三种安装方式 Hive与关系型数据库的区别 1. 认识Hive 前面我们讲到了mapreduce计算框架,各位需要通过java编码的形式来实现设计运算过程,Hive的设计目的就是为了让精通sql技能而java较弱的分析师能够利用hadoop进 ...
分类:
其他好文 时间:
2020-11-21 12:33:40
阅读次数:
7
大数据查询引擎Presto简介SQLonHadoop:Hive的出现让技术人员可以通过类SQL的方式对批量数据进行查询,而不用开发MapReduce程序MapReduce计算过程中大量的中间结果磁盘落地使运行效率较低为了提高SQLonHadoop的效率,各大工具应运而生,比如Shark、Impala等SQLonHadoop的常见工具:Presto是什么:Presto是由Facebook开发的分布式
分类:
数据库 时间:
2020-11-21 12:01:11
阅读次数:
8
使用工具连接hive: https://blog.csdn.net/weixin_44508906/article/details/91348665代码连接:先从虚拟机上找到 把这三个jar包加到file->Project Structure->Modules->Dependencies 点击ok ...
分类:
其他好文 时间:
2020-11-20 11:51:40
阅读次数:
5