www.sohu.com/a/159976204_717210 生成模型:基于联合概率~共生关系判别模型:基于条件概率~因果关系 生成模型之学习数据分布:1)概率密度函数估计 2)数据样本生成 模型目标:训练模型,生成样本模型,学习过程是让两者接近解决问题: 数据缺失-因为可以用生成模型自己生成数据 ...
分类:
其他好文 时间:
2018-04-29 13:33:16
阅读次数:
206
基准测试可以说是唯一方便有效的、可以学习系统在给定工作负载下会发生什么的方法。可见基准测试的重要性,在设计基准测试前,我们要了解一下基准测试的常见错误,防止自己在测试中犯这些错误。 数据库基准测试中常见错误: 使用真实数据的子集而不是全集:例如真实情况下,应用需要处理100G的数据,然而在测试时,只 ...
分类:
数据库 时间:
2018-04-28 19:21:23
阅读次数:
200
水平分库分表的关键问题及解决思路 分片技术的由来 关系型数据库本身比较容易成为系统性能瓶颈,单机存储容量、连接数、处理能力等都很有限,数据库本身的“有状态性”导致了它并不像Web和应用服务器那么容易扩展。 单机存储容量、连接数、处理能力等都很有限,数据库本身的“有状态性”导致了它并不像Web和应用服 ...
分类:
其他好文 时间:
2018-04-23 15:40:50
阅读次数:
164
降噪是音频图像算法中的必不可少的。 目的肯定是让图片或语音 更加自然平滑,简而言之,美化。 图像算法和音频算法 都有其共通点。 图像是偏向 空间 处理,例如图片中的某个区域。 图像很多时候是以二维数据为主,矩形数据分布。 音频更偏向 时间 处理,例如语音中的某短时长。 音频一般是一维数据为主,单声道 ...
分类:
编程语言 时间:
2018-04-22 12:56:27
阅读次数:
651
1、什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现 任务 ...
分类:
其他好文 时间:
2018-04-15 16:25:44
阅读次数:
198
Spark能做什么?Spark应用领域Spark是大数据技术中数据计算处理的王者,能够一次处理PB级的数据,分布在数千个协作的物理或虚拟服务器集群中,它有一套广泛的开发者库和API,并且支持Java,Python,R和Scala等语言,其灵活的特性,适合各种环境,以下是Spark最常见的两种应用场景:离线场景:可以以时间为维度,几年的数据集,或者以业务为维度,某个领域的大数据集等,这种数据我们一般
分类:
其他好文 时间:
2018-04-11 00:06:23
阅读次数:
215
Spark能做什么?Spark应用领域Spark是大数据技术中数据计算处理的王者,能够一次处理PB级的数据,分布在数千个协作的物理或虚拟服务器集群中,它有一套广泛的开发者库和API,并且支持Java,Python,R和Scala等语言,其灵活的特性,适合各种环境,以下是Spark最常见的两种应用场景:离线场景:可以以时间为维度,几年的数据集,或者以业务为维度,某个领域的大数据集等,这种数据我们一般
分类:
其他好文 时间:
2018-04-10 23:58:28
阅读次数:
358
数据倾斜:由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点。map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的re ...
分类:
其他好文 时间:
2018-04-07 17:43:42
阅读次数:
159
一,归档 在大数据开发中往往要运算海量数据,可是这些数据分布在许多小文件中,传输和运算十分不方便,为此我们得进行文件归档 即把几个小文件写到一个文件中形成大文件,可是我们要怎么写呢?每个团队有每个团队的方法,下面介绍我自己的方法。 格式: 4个字节 文件名称的数据存储大小(n,表示存储的文件有几个字 ...
分类:
其他好文 时间:
2018-04-06 23:53:10
阅读次数:
236
GAN目前是机器学习中非常受欢迎的研究方向。主要包括有两种类型的研究,一种是将GAN用于有趣的问题,另一种是试图增加GAN的模型稳定性。 事实上,稳定性在GAN训练中是非常重要的。起初的GAN模型在训练中存在一些问题,e.g., 模式塌陷(生成器演化成非常窄的分布,只覆盖数据分布中的单一模式)。模式 ...
分类:
Web程序 时间:
2018-04-05 21:00:26
阅读次数:
369