“使用USQL产品,用户在原有的数据文件基础上进行数据建模,即可使用SQL进行业务数据的快速查询,此种方式对原有数据文件改动较小,用户不用关注大数据分布式处理的过程,业务迁移方便。对比我们现有的大数据处理方案,节省80%的服务器成本,提升50%数据分析速度,同时也缩短了新业务的开发周期,值得推荐。”——爱普新媒CTO牛德恒USQL是什么?数据湖分析(USQL)是一种可扩展性强、成本低廉的无服务器S
分类:
数据库 时间:
2019-04-22 19:26:51
阅读次数:
176
https://sq.163yun.com/blog/article/196036888966840320 线上问题:由于上游某系统数据分布突变,引起下游本系统的一个特定时间性能指标未达线。 性能需求: 1. 调整数据分布,重新测量系统在新的压力场景下的吞吐量和关键性能指标,及此特定时间 2. 需要 ...
分类:
其他好文 时间:
2019-04-19 23:55:09
阅读次数:
358
Oracle统计信息 统计信息主要是描述数据库中表,索引的大小,规模,数据分布状况等的一类信息。例如,表的行数,块数,平均每行的大小,索引的leaf blocks,索引字段的行数,不同值的大小等,都属于统计信息。CBO正是根据这些统计信息数据,计算出不同访问路径下,不同join 方式下,各种计划的成 ...
分类:
数据库 时间:
2019-04-09 16:57:29
阅读次数:
141
Generative adversarial networks "Generative Adversarial Networks" A generative model G : capture the data distribution(数据分布) A discriminative model D ...
分类:
其他好文 时间:
2019-04-04 20:41:19
阅读次数:
201
Redis Cluster 需求:1、请求量过大 100w/s 2、数据量大 1、数据分布 哈希分布特点: 数据分散度高 键值分布业务无关 无法顺序访问 支持批量操作 顺序分布特点: 数据分散度易倾斜 键值业务相关 可顺序访问 支持批量操作 2、数据分区 节点取余分区特点: 客户端分片:哈希 + 取 ...
分类:
其他好文 时间:
2019-04-03 12:36:41
阅读次数:
222
Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业 ...
分类:
其他好文 时间:
2019-03-29 13:07:34
阅读次数:
143
【机器学习】多项式回归原理介绍 【机器学习】多项式回归python实现 【机器学习】多项式回归sklearn实现 使用python实现多项式回归,没有使用sklearn等机器学习框架,目的是帮助理解算法的原理。 使用一个简单的数据集来模拟,只有几条数据。 代码 运行结果 从图中看出数据分布在一条抛物 ...
分类:
编程语言 时间:
2019-03-10 00:04:22
阅读次数:
230
概念 计算机网络是互连的,自治的计算机集合 计算机网络的功能 1. 数据通信(连通性) 2. 资源共享(硬件,软件,数据) 3. 分布式处理(多台计算机各自承担同一任务的不同部分) 4. 提高可靠性(替代机器) 5. 负载均衡(使多台计算机一起亲密干活) 计算机网络的组成 组成部分(硬件,软件,协议 ...
分类:
其他好文 时间:
2019-03-09 20:12:48
阅读次数:
197
ELK = ElasticSearch + Logstash + Kibana Elasticsearch:后台分布式存储以及全文检索 Logstash : 日志加工、“搬运工” Kibana : 数据可视化展示 ELK架构为数据分布式存储、可视化查询和日志解析创建了一个功能强大的管理链。 三者相互 ...
分类:
其他好文 时间:
2019-03-08 17:16:03
阅读次数:
176
1. 二值化处理 将细粒度的度量转化成粗粒度的度量,使得特征的差异化更大。 2.特征多项式交互 捕获特征之间的相关性 3.数据分布倾斜的处理 log变化:log变化倾向于拉高那些落在较低的幅度范围内自变量的取值,压缩那些落在较高的幅度范围内自变量的取值,log变化能够稳定数据的方差,使数据的分布接近 ...
分类:
其他好文 时间:
2019-03-06 20:46:42
阅读次数:
305