这个是我下载的原文在看,然后结合一些网上的资料学习,先贴一个网上的资料。 终于有人说清楚了XGBoost算法 XGBoost阅读之Weighted quantile sketch ...
分类:
其他好文 时间:
2019-09-28 23:20:41
阅读次数:
279
背景:当我们书写一些结构相对复杂的SQL语句时,可能某个子查询在多个层级多个地方存在重复使用的情况,这个时候我们可以使用 with as 语句将其独立出来,极大提高SQL可读性,简化SQL~注:目前 oracle、sql server、hive等均支持 with as 用法,但 mysql并不支持! ...
分类:
其他好文 时间:
2019-09-27 20:59:31
阅读次数:
64
条件写在on里,join的时候处理,满足条件的join,不满足条件的不join,但是都会显示 条件写在where里,join完了处理,满足条件的显示,不满足条件的不显示 参考文献: https://blog.csdn.net/qq_20641565/article/details/52950087 ...
分类:
其他好文 时间:
2019-09-27 19:37:13
阅读次数:
112
基于Docker搭建大数据集群(六)Hive搭建 前言 之前搭建的都是1.x版本,这次搭建的是 hive3.1.2 版本的。。还是有一点细节不一样的 Hive现在解析引擎可以选择spark,我是用 spark 做解析引擎的,存储还是用的HDFS 我是在 docker 里面搭建的集群,所以都是基于do ...
分类:
其他好文 时间:
2019-09-27 12:19:45
阅读次数:
107
Zookeeper环境搭建 下载 参考文档 单机环境 创建配置文件 conf/zoo.cfg windows启动 zkServer.cmd Linux启动 zkServer.sh start Bugs ...
分类:
其他好文 时间:
2019-09-22 17:54:18
阅读次数:
125
最近接触了下组内常用的一些日志分析及报警工具,发现现在一些开源社区和商业公司的产品真的很好用,想要独立搭建一个完善的后端服务,真的已经很容易了; 1. 日志收集与分析:graylog2 + hive/presto 2. 服务监控:sentry 3. Rpc: thrift+consul 如今的开发环 ...
分类:
其他好文 时间:
2019-09-22 12:59:42
阅读次数:
93
最近为了调试hive试了很多hive参数,对于hive任务优化,减少使用内存有一些自己的见解,在此做一个记录。 一:Hive是什么 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 Hive是面向大数据的数据仓库,是一种将SQL转换为mapreduce的工具。 二:ma ...
分类:
其他好文 时间:
2019-09-21 23:44:00
阅读次数:
135
Hadoop生态圈 摘要:一:基本构成:HDFS(Hadoop分布式文件系统);Mapreduce(分布式计算框架);HBASE(分布式列存数据库); Zookeeper(分布式协作服务);HIVE(数据仓库);Pig(ad-hoc脚本)等。 二:详细了解一下其特性: Hadoop是一个由Apach ...
分类:
其他好文 时间:
2019-09-21 23:05:58
阅读次数:
119
Hive调优-萌贝树母婴无骗子,多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的,不过,有时 Hive 的输入数据量是非常小的
分类:
其他好文 时间:
2019-09-21 19:30:36
阅读次数:
86
hadoop简介 hadoop是基于Java语言开发的,具有很好的跨平台性,并且可以部署在廉价的计算机群众,hadoop的核心是分布式文件系统HDFS(hadoop distributed file system)和mapreduce,HDFS具有较高的读写速度和和好的容错性和可伸缩性并且具有大规模 ...
分类:
其他好文 时间:
2019-09-21 18:47:50
阅读次数:
87