本文始发于个人公众号:TechFlow 近两年AI成了最火热领域的代名词,各大高校纷纷推出了人工智能专业。但其实,人工智能也好,还是前两年的深度学习或者是机器学习也罢,都离不开底层的数据支持。对于动辄数以TB记级别的数据,显然常规的数据库是满足不了要求的。今天,我们就来看看大数据时代的幕后英雄——H ...
分类:
其他好文 时间:
2019-12-28 22:38:52
阅读次数:
106
mysql> select count(1) from xcdqm_store_purchase_total_amount_streaming into outfile '/tmp/xcdqm_store_purchase_total_amount_streaming.count'ERROR 129 ...
分类:
数据库 时间:
2019-12-28 16:25:08
阅读次数:
115
本文在Windows端实现了WordCount功能
分类:
其他好文 时间:
2019-12-27 19:40:55
阅读次数:
100
Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同 ...
分类:
其他好文 时间:
2019-12-27 00:11:15
阅读次数:
106
spark参数介绍 https://endymecy.gitbooks.io/spark-config-and-tuning/content/config.html ...
分类:
其他好文 时间:
2019-12-26 14:53:55
阅读次数:
65
一 问题 hivesql可以正常运行,spark3.0运行报错如图 spark3.0配置 查看源码新增一个 val STORE_ASSIGNMENT_POLICY = buildConf("spark.sql.storeAssignmentPolicy") .doc("When inserting ...
分类:
数据库 时间:
2019-12-25 20:34:49
阅读次数:
162
流数据的窗口操作:窗口操作,即把几个批次的数据整合到一个窗口里计算,并且窗口根据步长不断滑动。 本质:把小批次,小颗粒的数据任意进行大批次和大颗粒的数据统计,意味着批次采集周期不用设置太大,可以通过滑动窗口来调整数据出现的粒度。 code: package com.home.spark.stream ...
分类:
其他好文 时间:
2019-12-25 17:36:28
阅读次数:
93
在windows上执行的时候,option(“timestampFormat”, “yyyy/MM/dd HH:mm:ss ZZ”)必须带上,不然报错: Exception in thread "main" java.lang.IllegalArgumentException: Illegal pa ...
分类:
编程语言 时间:
2019-12-24 23:47:57
阅读次数:
147
目录 一、Spark SQL介绍 二、Spark和Hive的整合 三、Spark的thriftserve2/beeline/jdbc 四、shell方式使用SQL 一、Spark SQL介绍 官网:http://spark.apache.org/sql/ 学习文档:http://spark.apac ...
分类:
数据库 时间:
2019-12-24 23:44:13
阅读次数:
353
自定义用户函数有两种方式,区别:是否使用强类型,参考demo:https://github.com/asker124143222/spark-demo 1、不使用强类型,继承UserDefinedAggregateFunction package com.home.spark import org. ...
分类:
数据库 时间:
2019-12-24 19:01:05
阅读次数:
134