一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wc cd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop,启动hive start-all.sh hive 3.创建数据库,创建文本 ...
分类:
其他好文 时间:
2020-12-09 12:15:14
阅读次数:
5
[root@node1 tasks]# cat main.yml name: 拷贝JKD到目标服务器 unarchive: src={{ jdk_pkg }} dest={{ jdk_dir }} mode=755 name: 添加环境变量 blockinfile: dest: /etc/profi ...
分类:
其他好文 时间:
2020-12-09 12:12:06
阅读次数:
6
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map、array、struct的处理遇到的问题?为了更好的说明导致问题 ...
分类:
其他好文 时间:
2020-12-08 12:44:11
阅读次数:
4
前言 在本机模拟器的ubuntu18版本上进行的部署测试,参考的官方文档: hadoop: 链接地址 hive: 链接地址 使用的版本: hadoop: 3.2.1 hive: 3.1.2 全程是使用root账号进行的配置。 hadoop安装配置 hadoop使用的是虚拟集群,即单机模拟集群,dat ...
分类:
其他好文 时间:
2020-12-05 10:52:38
阅读次数:
7
java结合testng,利用excel做数据源的数据驱动实例数据驱动部分,是自动化测试常用部分,也是参数化设计的重要环节,前面分享了,mysql、yaml做数据源,那么再来分享下excel做数据驱动思路:先用POI读取excel。解析读取数据,返回list,返回Object[][]即可工具类文件:读取excel,返回map对象list集合ReadExcelUtil.javaimportorg.a
分类:
编程语言 时间:
2020-12-04 11:39:14
阅读次数:
10
准备工作1.1下载最新源码,https://github.com/apache/lucene-solr1.2编译,按照说明,使用ant进行编译(我使用了anteclipse)1.3.将编译后的文件导入到eclipse,sts或者idea中2.新建测试类publicvoidtest()throwsIOException,ParseException{Analyzeranalyzer=newNGram
分类:
编程语言 时间:
2020-12-04 11:10:55
阅读次数:
5
<?phprequire_once(dirname(FILE).‘/inc/config.inc.php‘);header("Content-type:application/vnd.ms-excel");header("Content-Disposition:filename=volunteer.xls");echo"ID\
分类:
Web程序 时间:
2020-12-03 12:13:41
阅读次数:
10
什么是Hive? Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将SQL转化成MapReduce程序。 1、Hive 处理的数据存储在HDFS; 2、Hiv ...
分类:
其他好文 时间:
2020-12-03 11:43:46
阅读次数:
3
sqlserver读取excel文件数据到数据库 1.sqlserver 读取 excel中的数据 SELECT * FROM OpenDataSource( ‘Microsoft.Jet.OLEDB.4.0’, ‘Data Source=“c:/book1.xls”;User ID=Admin;P ...
分类:
数据库 时间:
2020-11-30 15:51:12
阅读次数:
10
主要内容 1. 协同过滤思想2. 推荐系统架构3. 推荐系统流程4. 推荐系统处理数据流程。5. python 文件预处理 Hive 数据。6. dubbo 服务使用。 一、协同过滤 协同过滤(Collaborative Filtering)技术,是推荐系统中应用最为广泛的技术之一,协同过滤算法主要 ...
分类:
其他好文 时间:
2020-11-30 15:32:24
阅读次数:
7