比如:A,B两表,找到ID字段中,存在A表,但不存在B表的数据。 A表共13w,去重后3w, B表共2W,且有索引方法一not in,易理解,效率低,时间:1.395sselect distinct A.id from A where A.id not in(select id from B)方法二... ...
分类:
其他好文 时间:
2019-07-07 14:16:43
阅读次数:
114
Hive的配置详解和日常维护 一.Hive的参数配置详解 1>.mapred.reduce.tasks 2>.hive.mapred.mode 3>.hive.merge.mapfiles 4>.hive.merge.mapredfiles 5>.hive.exec.parallel 6>.hive ...
分类:
其他好文 时间:
2019-07-06 19:09:42
阅读次数:
117
hive中order by、distribute by、sort by和cluster by的区别和联系 order by order by 会对数据进行全局排序,和oracle和mysql等数据库中的order by 效果一样,它只在一个reduce中进行所以数据量特别大的时候效率非常低。 而且当 ...
分类:
其他好文 时间:
2019-07-05 20:56:06
阅读次数:
82
使用:写一个认证类,继承BaseAuthentication 在类中写authenticate方法,把request对象传入 能从request对象中取出用户携带的token根据token判断是否登录过 如果登录过,返回两个值 user对象 ,token对象(或者其他自定义的对象) 如果没有登录过抛 ...
分类:
其他好文 时间:
2019-07-05 16:47:01
阅读次数:
109
之前写了一个程序,负责从一个集群中同步Hive数据到另一个集群中,代码中有这么一步,指定好表格后,会首先判断表格是否存在,不存在则创建,已经存在则提示是否覆盖。 在我最初编写程序的时候,两个集群中的表格基本上都是一致的,所以当初没有出什么问题。但是最近组长说这个程序干脆整合到平台里好了,所以找了一个 ...
分类:
数据库 时间:
2019-07-05 16:44:07
阅读次数:
729
一、安装Hadoop 1.1 版本说明 hadoop:3.1.2hive:3.1.1mysql:5.6.40 1.2 主机映射 添加IP与主机名的映射关系,在/etc/hosts文件里添加如下内容: 1.3 设置SSH无密码登录节点 让Master能够通过SSH无密码登录各个Slave节点。如果修改 ...
分类:
其他好文 时间:
2019-07-04 11:02:44
阅读次数:
319
1.hive的基础sql 建立测试数据表: 文章表:里面存入一段话,一个字段 (1)hive进行wordcount的统计 (2)经典的行转列 统计分析 要求转换为以下形式: (3)经典函数 时间计算 的使用 udata.user_id udata.item_id udata.rating udata ...
分类:
其他好文 时间:
2019-07-04 00:32:39
阅读次数:
151
drf组件 认证组件 models.py views.py 新建认证类 认证组件的使用 局部使用 全局使用 局部禁用 根据源码可以知道: 如果在项目中的settings中配置了REST_FRAMEWORK,默认先从项目中的settings中取 如果取不到,就去默认的drf配置文件中取 如果在视图类中 ...
分类:
其他好文 时间:
2019-07-03 22:50:55
阅读次数:
121
在hive命令行中查询数据如下: 表头未显示出来 解决办法: 修改hive安装包conf/hive-site.xml配置文件: 再次查询如下所示: ...
分类:
其他好文 时间:
2019-07-02 20:53:11
阅读次数:
929