今天要研究的问题是如何计算两个文本的相似度。正如上篇文章描述,计算文本的相似度在工程中有着重要的应用,
比如文本去重,搜索引擎网页判重,论文的反抄袭,ACM竞赛中反作弊等等。
上篇文章介绍的SimHash算法是比较优秀的文档判重算法,它能处理海量文本的判重,Google搜索引擎也正是用这
个算法来处理网页的重复问题。实际上,仅拿文本的相似度计算来说,有很多算法都能解决这个问题,并且都达...
分类:
其他好文 时间:
2014-06-02 15:15:39
阅读次数:
200
前段时间我哥备份手机通讯录备份的是xls表格格式(我也不知道为什么要导出成这样的,,,汗死),然后现在导入不进去了,用各种软件都是错误。我导出为vcard的(后缀是vcf),以文本格式打开看了下,发现是很有格式规范的,顿时觉得有戏了。
BEGIN:VCARD
N:;移动客服;;;;;;
TEL;CELL:10086
STARRED:False
UID:514
VERSION:3.0
REV:20...
分类:
移动开发 时间:
2014-06-02 15:07:50
阅读次数:
370
图01图02图03一、案例介绍:点击“图01”中的Button,Label文本变为“Hello
World”,如“图02”。二、案例步骤:1、选择Single View
Application新建项目,取名cq.39.UIButton_UILabel,如“图03”。
分类:
移动开发 时间:
2014-06-02 11:56:47
阅读次数:
279
树视图控件能够按层次结构组织和管理数据,通常用于显示树状结构数据。 先截个图 :
这个是程序的最终运行结果。其中树节点上的文本文字是从数据库中读取。 下面是程序步骤:
(1)新建一个基于对话框的应用程序TreeViewCtrl,在对话框中添加树视图控件。 (2)在类向导中将树视图控件命名为m_tre...
分类:
数据库 时间:
2014-06-02 10:20:13
阅读次数:
395
MIME 类型MIME (Multipurpose Internet Mail
Extensions) 是描述消息内容类型的因特网标准。MIME 消息能包含文本、图像、音频、视频以及其他应用程序专用的数据。官方的 MIME 信息是由
Internet Engineering Task Force (...
分类:
移动开发 时间:
2014-06-02 08:54:31
阅读次数:
248
l常见属性(红色部分是用文本编辑器打开时看到的key)uLocaliztion native
development region(CFBundleDevelopmentRegion)-本地化相关uuBundle display
name(CFBundleDisplayName)-程序安装后显示的名...
分类:
其他好文 时间:
2014-06-02 07:15:05
阅读次数:
218
//children 只包括元素节点,不包括文本节点
childNodes既包括元素节点,又包括文本节点可以通过alert(oU.children.leght);和alert(OUl.childNodes.length);进...
分类:
编程语言 时间:
2014-06-02 05:39:42
阅读次数:
307
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很
高,那么我们可以认为它们是相同的文本。
对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度
的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离
的计算,比...
分类:
其他好文 时间:
2014-06-02 05:02:30
阅读次数:
500
1.游程编码概念
游程编码又称“运行长度编码”或“行程编码”,是一种统计编码,该编码属于无损压缩编码。2.基本原理
用一个符号值和串长代替具有相同值的连续符号,使符号长度少于原始数据的长度。 如: 原始文本:dfffffeeeeettttrrrrttttt
游程编码后文本:d1f5e...
分类:
其他好文 时间:
2014-06-02 01:45:26
阅读次数:
437
起因由于公司的项目以前不考虑浏览器的兼容性问题,当时只考虑ie8浏览器,封装的控件也只针对ie8,我后面的做的时候,也就针对ie8,最近发现,封装的日期控件,在firefox竟然没法显示出来,去看JavaScript代码,才发现原来是用innerText获取的td的内容,这样在文本框获取日期的时候,...
分类:
Web程序 时间:
2014-06-02 01:42:20
阅读次数:
424