最近调研了一下simhash算法,它主要用在谷歌网页去重中,网上有很多原理性的介绍。既然可以用来判断文件的相似性,就想知道效果怎么样,simhash的精确度是否依赖于分词算法?是否和simhash的长度有关?
在数据去重过程中,都是先对文件进行分块,而后得到关于这个文件的所有指纹(SHA-1 digest),那么如果把这些fingerprints视为这个文件的单词,作为simhash的输入,效果...
分类:
其他好文 时间:
2014-07-11 08:33:56
阅读次数:
217
使用该语法可在插入记录的时候先判断记录是否存在,如果不存在则插入,否则更新,很方便,无需执行两条SQL
这个语句知识mysql中,而标准sql语句中是没有的。
INSERT INTO .. ON DUPLICATE KEY更新多行记录
如果在INSERT语句末尾指定了ON DUPLICATE KEY UPDATE,并且插入行后会导致在一个UNIQUE索引或PRI...
分类:
数据库 时间:
2014-07-11 08:24:56
阅读次数:
289
1、错误描述
2014-07-08 10:27:13,939 ERROR(com.you.conn.JDBCConnection:104) -com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException:Duplicate entry '97112' for key 1
2、错误原因
插入...
分类:
其他好文 时间:
2014-07-09 11:18:15
阅读次数:
137
法一:全部恢复一:先备份数据库:用reportschema查看数据文件的目的地址二:删除system01.dbf,sysaux01.dbf三:关闭数据库启动到Mount状态下四:用rman命令恢复数据库:五:完成法二:直接恢复丢失的数据文件一:查询system01属于几号数据文件:二:删除system01三:还原syst..
分类:
其他好文 时间:
2014-07-08 09:08:15
阅读次数:
236
RMAN高级设置.本章内容:Configuring Advanced Channel Options 高级通道选项Configuring Advanced Backup Options 高级备份选项Configuring Auxiliary Instance Data File Names 配置辅助...
分类:
其他好文 时间:
2014-07-05 22:46:32
阅读次数:
539
1. trim trim('aaa' from 'aaabbbccc') 这个是错误的。ora-30001: trim set should have only one character 2. initcap() 首字母变为大写 3. RMAN:minimize load 在10g之后,可以在ba...
分类:
其他好文 时间:
2014-07-05 18:22:45
阅读次数:
245
OracleRMAN备份深入解析--联机备份RMAN>backupdatabaseplusarchivelog;1、首先,进程使用altersystemarchivelogcurrent命令完成了日志切换操作。2、进程将现存所有归档重做日志备份3、开始执行实际的数据库备份操作,此时会发生一次日志切换(altersystemarchivelogcurrent..
分类:
数据库 时间:
2014-07-04 00:49:06
阅读次数:
455
本章内容:Configuring the Environment for RMAN Backups 配置RMAN环境Configuring RMAN to Make Backups to a Media Manager 备份到介质管理器Configuring the Fast Recovery Ar...
分类:
其他好文 时间:
2014-07-03 19:55:28
阅读次数:
155
本章内容:Configuring the Environment for RMAN Backups 配置RMAN环境Configuring RMAN to Make Backups to a Media Manager 备份到介质管理器Configuring the Fast Recovery Ar...
分类:
其他好文 时间:
2014-07-03 19:51:32
阅读次数:
225