数据倾斜产生的原因 数据倾斜的原因很大部分是join倾斜和聚合倾斜两大类 Hive倾斜之group by聚合倾斜 原因: 分组的维度过少,每个维度的值过多,导致处理某值的reduce耗时很久; 对一些类型统计的时候某种类型的数据量特别多,其他的数据类型特别少。当按照类型进行group by的时候,会 ...
分类:
其他好文 时间:
2019-12-14 15:46:31
阅读次数:
174
前言 昨天,我开发的代码,又收获了一个bug,说是界面上列表查询时,正常情况下,可以根据某个关键字keyword模糊查询,后台会去数据库 %keyword%查询(非互联网项目,没有使用es,只能这样了);但是,当输入%字符时,可以模糊匹配出所有的记录,就好像,好像这个条件没进行过滤一样。 原因很简单 ...
分类:
编程语言 时间:
2019-12-14 09:45:14
阅读次数:
118
方式1: 一行一行的方式读取 其中常用的方法就有:ReadString,ReadLine,ReadBytes ReadLine 返回单个行,不包括行尾字节,就是说,返回的内容不包括\n或者\r\n,返回的类型为[]byte ReadString('\n') 以分隔字符方式读取,遇到传入的分割字符时就 ...
分类:
其他好文 时间:
2019-12-13 23:54:57
阅读次数:
164
01: 考察range/sort/lambda 对以下数据进行排序 原数据: [-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5] 目标数据: [0, -1, 1, -2, 2, -3, 3, -4, 4, -5, 5] 实现代码 sorted(range(-5, 6), k ...
分类:
编程语言 时间:
2019-12-13 23:52:02
阅读次数:
95
参考: javascript 高级程序设计第三版工厂模式12345678910function (name) { var obj = new Object() obj.name = name obj.getName = function() { console.log(this.name) } re... ...
分类:
Web程序 时间:
2019-12-13 23:15:06
阅读次数:
199
原文链接:http://tecdat.cn/?p=9448 目录 获取和整理NASA元数据 计算文字的tf-idf 连接关键字和描述 可视化结果 NASA有32,000多个数据集,并且NASA有兴趣了解这些数据集之间的联系,以及与NASA以外其他政府组织中其他重要数据集的联系。有关NASA数据集的元 ...
分类:
编程语言 时间:
2019-12-13 19:52:40
阅读次数:
79
一、回顾 1、如何获取使用帮助 help,--help,man,info 官方文档,自带文档(README,CHANGELOG,INSTALL),官方文档 发行版的文档 Google Linux Kerenl:官方的Documentation manual:使用手册 whatis keyword m ...
分类:
系统相关 时间:
2019-12-12 23:32:07
阅读次数:
143
以下为主要的数据类型,特殊的或者比较冷门的不予关注: 类型分类 子分类 具体类型 核心类型 字符串 text,keyword 整数 byte,short,integer,long 浮点 double,float,half_float,scale_float 逻辑 boolean 日期 date 范围 ...
分类:
其他好文 时间:
2019-12-12 18:19:23
阅读次数:
532
参考:mysql索引 前提 索引是有成本的,这主要体现在 会降低插入和修改数据和删除数据的速度 索引是可以加快查询速度的 所以哪些列应该创建索引呢? 1:不需要被频繁更新的列(每秒钟 每分钟都要更新一次) 2:出现在where和join中的列(因为索引是用来做查询的) 索引的优化措施: 索引本身也是 ...
分类:
数据库 时间:
2019-12-12 12:54:17
阅读次数:
111
首先,要写一个方法,把xml字符串转化成dom对象 例如:xmlString = "<?xml version="1.0" encoding="UTF-8"?><messages><business><businessdata><result><report><![CDATA[校验报告HTML,内容 ...
分类:
Web程序 时间:
2019-12-11 19:36:41
阅读次数:
144