为什么在图像检索里面使用到哈希(hashing)算法?基于哈希算法的图像检索方法将图片的高维内容特征映射到汉明空间(二值空间)中,生成一个低维的哈希序列来表示一幅图片,降低了图像检索系统对计算机内存空间的要求,提高了检索速度,能更好的适应海量图片检索的要求。最近或者最近邻问题在大规模的数据查询中用得...
分类:
其他好文 时间:
2014-06-28 11:15:51
阅读次数:
418
原文:08. 删除重复&海量数据重复数据,通常有两种:一是完全重复的记录,也就是所有字段的值都一样;二是部分字段值重复的记录。一. 删除完全重复的记录完全重复的数据,通常是由于没有设置主键/唯一键约束导致的。测试数据:if OBJECT_ID('duplicate_all') is not null...
分类:
其他好文 时间:
2014-06-25 23:46:12
阅读次数:
289
人生苦短,我用python,最近实习一直在用工作,因为我做的工作涉及到海量数据,程序跑下来用上代理,一个月可能也跑不完,但是我快要回去考试两周,作为一个强迫症的coder,我必须要得知我的程序怎么了!!!所以我让我的程序成功执行一段时间,但是我又是非常“懒惰”的人(其实优秀的程序员都要很“懒惰”呢!坚决写简洁的代码,如果可以,越短越好,所以前短时间写了个160行的py 2048.),看了好多版本,...
分类:
编程语言 时间:
2014-06-24 19:42:11
阅读次数:
205
一:flume介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。,Flume架构分为三个部分 源-Source,接收器-Sink,通道-Channel。二:配置...
分类:
其他好文 时间:
2014-06-21 08:59:50
阅读次数:
245
##Flume概述[Flume](http://flume.apache.org/)是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 ...
分类:
其他好文 时间:
2014-06-20 22:18:57
阅读次数:
309
关心数据挖掘和搜索引擎的程序员都知道,我们需要很多的计算机来存储和处理海量数据。然而,计算机难免出现硬件故障而导致网络联系失败或死机。为了保证搜索引擎的服务质量,我们需要保证每份数据都有多个备份。简单起见,假设每个机器存储一个标号为ID的记录(ID是小于十亿的整数),假设每份数据都保存两个备份,这样...
分类:
其他好文 时间:
2014-06-20 20:35:53
阅读次数:
188
XCode天生就有分表分库功能,设计于2005年!历时9年,这是分表分库功能第一次针对性正式更新。在XCode里面,分表分库非常简单,在操作数据(查询/更新)前修改Meta.ConnName/Meta.TableName,指向别的连接字符串和表名,就实现了分表分库功能!实际上,XCode实体层构建数...
分类:
其他好文 时间:
2014-06-18 21:55:32
阅读次数:
259
问题
比较Java原生的
1. TreeMap
2. HashMap
3. ConcurrentSkipListMap
3种Map的效率。
结果
模拟150W以内海量数据的插入和查找,通过增加和查找两方面的性能测试,结果如下:
Map类型
插入
查找(在100W数据量中)
10W
50W...
分类:
编程语言 时间:
2014-06-17 16:34:04
阅读次数:
308
怎样处理海量数据在实际的工作环境下,很多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有下面几个方面:一、数据量过大,数据中什么情况都可能存在。假设说有10条数据,那么大不了每条去逐一检查,人为处理,假设有上百条数据,也能够考虑,假设数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具...
分类:
其他好文 时间:
2014-06-17 15:02:18
阅读次数:
194
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 110001这个就很简单啦,正1负0。到此,如何从一个doc到一个simhas...
分类:
其他好文 时间:
2014-06-15 22:11:57
阅读次数:
239