前面
数据流基本问题--独立元素计数(一)和数据流基本问题--独立元素计数(二)我们谈到了独立元素技术。在本文中,我们将独立元素计数问题推广到更一般的问题,也就是矩估计问题。我们将先介绍矩的定义,然后介绍一个无偏的估计算法,最后介绍如何改进结果。
一、矩定义...
分类:
其他好文 时间:
2015-05-26 21:30:39
阅读次数:
156
该篇文章中问题的定义和上一篇文章《数据流基本问题--独立元素计数(一)》点击打开链接中一样。不过该篇文章里能给出-近似的算法。
一、算法的基本思想
该篇文章中的算法是上一篇文章中算法的改进。这里不再记录流中元素zeros(h(j))的最大值,而是将满足所有的元素放入到B中。如果流中有d个独立元素,那么平均会有个元素满足。所以应该是d的一个比较好的估计(|B|指的是B中元素总数目)。
二、算法...
分类:
其他好文 时间:
2015-05-25 10:17:13
阅读次数:
107
1、一致性哈希。在分布式系统用途广泛。2、局部敏感哈希LSH:simhash和minhash。可以用于相似度检测等。谷歌有篇文章利用LSH进行网页去重。3、布隆过滤器。判断一个元素是否在一个集合中。4、在数据流算法中哈希算法应用更是广泛。比如数据流中独立元素计数等。5、特征哈希。近几年在nips等机...
分类:
其他好文 时间:
2015-05-24 15:34:48
阅读次数:
111