例如:1KW数据,200个map,100个reduce。(1)map阶段,每个map分别局部排序,得到200个排好顺序的结果(2)对所有的数据进行99个抽样s1,s2...s99(按照顺序排列)(3)根据每个map中数据在抽样数据的前后,将每个map划分成(最多)100个部分m1-1,m1-2......
分类:
其他好文 时间:
2014-06-21 16:23:11
阅读次数:
181
1.LPC基本概念:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和达到最小,能够决定唯一的一组预测系数。用于语音分析与合成,可估计许多语音基本参数:基音、共振峰、频谱、声道截面积等。
2.线性预测编码框架: 模型的系统函数H(z)的三种形式:...
分类:
其他好文 时间:
2014-05-24 11:59:31
阅读次数:
445
分类中通常使用将多个弱分类器组合成强分类器进行分类的方法,统称为集成分类方法(Ensemble Method)。比较简单的如在Boosting之前出现Bagging的方法,首先从从整体样本集合中抽样采取不同的训练集训练弱分类器,然后使用多个弱分类器进行voting,最终的结果是分类器投票的优胜结果。这种简单的voting策略通常难以有很好的效果。直到后来的Boosting方法问世,组合弱分类器的威...
分类:
其他好文 时间:
2014-05-18 13:51:17
阅读次数:
312
本文用讲一下指定分布的随机抽样方法:MC(Monte Carlo), MC(Markov Chain), MCMC(Markov Chain Monte Carlo)的基本原理,并用R语言实现了几个例子:
1. Markov Chain (马尔科夫链)
2. Random Walk(随机游走)
3. MCMC具体方法:
3.1 M-H法
3.2 Gibbs采样
PS:本篇blog为ese机器学习短期班参考资料(20140516课程)。...
分类:
其他好文 时间:
2014-05-15 23:58:14
阅读次数:
536
Gibbslda有很多版本,我所用的版本为C++版(下载地址http://gibbslda.sourceforge.net/),平台是linux,博主试过windows上运行,有两个主要问题很烦~,一个是path,一个是平台太大。最后还是投入了ubuntu的怀抱,感觉配置好g++环境后速度还不错。由...
分类:
其他好文 时间:
2014-05-12 12:11:43
阅读次数:
295
随着数字信号处理理论和算法的发展,多抽样率信号处理在多媒体
信号处理领域显得越来越重要。为了减少计算复杂度和存储复杂度,采样速率转换技术是十分必要的,音频重采样算法可以用来实现音频信号任意采样速率之间的转 换。
本文首先简要介绍了多抽样率信号处理的基本概念和原理,设计了三种音频重采样算法,分别是基于...
分类:
其他好文 时间:
2014-05-08 11:29:56
阅读次数:
1314