NLPIR工具 支持自定义词表; 可以离线使用;下载地址:http://ictclas.nlpir.org/newsdownloads?DocId=389在线演示:http://ictclas.nlpir.org/nlpir/自然语言处理与信息检索共享平台:(nlpir相关的一些软件、文档、论文.....
分类:
编程语言 时间:
2015-06-18 12:53:51
阅读次数:
5300
1.1需求分析 图书馆管理系统是图书馆管理工作中不可缺少的部分,对于图书馆的管理者和使用者来说都非常重要了,故相对于传统的手工方式或性能较低的图书馆管理系统管理图书馆的日常事务相比,设计一个能提供快速的图书信息检索功能、快捷的图书借阅、归还流程,为管理者与读者提供充足的信息和快捷的数据处理手段的系统...
分类:
其他好文 时间:
2015-06-14 15:04:37
阅读次数:
362
原文:http://my.oschina.net/zjzhai/blog/464446比较好的一篇科普文章, 介绍倒排索引的.如有不正确的或者理解不到位的地方,欢迎斧正。信息检索问题首先我们来看问题域。每一种技术产物都是为解决某类问题。不从问题域出发,我们就很难理解为什么它是这样的。就像那些没学过“...
分类:
其他好文 时间:
2015-06-14 12:16:59
阅读次数:
161
搜索引擎依托于互联网,它是互联网网站和应用的入口。1,搜索引擎技术的发展史 第一代:文本检索的一代 采用经典的信息检索模型,比如布尔模型、向量空间模型或概率模型,来计算用户查询关键词和网页文本内容的相关程度。并没有利用到网页之间的链接关系。 第二代:链接分析的一代 充分利用网页之间的链接...
分类:
其他好文 时间:
2015-05-25 23:55:12
阅读次数:
181
这里我省去了很多的数学知识,建议数学比较薄弱的读者可以先看看信息检索导论>第18章。主要的数学知识包括方阵的特征值、特征向量;方阵的对角化;一般矩阵的奇异值分解及低秩逼近矩阵。这里主要讲解奇异值分解的两个应用PCA(降维)和LSA(潜在语义结构分析)。
PCA:
之前有详细讲过PCA,http://blog.csdn.net/lu597203933/article/details/415445...
分类:
其他好文 时间:
2015-05-22 00:38:18
阅读次数:
1027
Lucene简介 Lucene是一个基于Java的全文信息检索工具包,为应用程序提供索引和搜索功能。 Lucene采用的是一种称为反向索引(inverted index)的机制。反向索引就是说我们维护一个词/短语表,对于这个词/短语表再通过一个链表标示哪些文档包含了这个词、短语。这样在用户输入查.....
分类:
Web程序 时间:
2015-05-20 22:19:12
阅读次数:
189
参考:http://www.cnblogs.com/ywl925/p/3275878.html这个模型主要用于信息检索,但它的思想用于图像也未尝不可。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类...
分类:
其他好文 时间:
2015-05-18 16:00:33
阅读次数:
110
聚类结果的好坏,有很多种指标,其中F-Measue即F值是常用的一种,其中包括precision(查准率或者准确率)和recall(查全率或者召回率)。F-Measue是信息检索中常用的评价标准。F-Measue的公式如下:\[{{F}_{\beta }}=\frac{\left( {{\beta ...
分类:
其他好文 时间:
2015-05-17 10:45:07
阅读次数:
327
动态时间规整:Dynamic Time Warping(DTW),是一种衡量两个离散时间序列相似度的方法,主要特点是在序列长度不一或x轴无法完全对齐的情况下,用满足一定条件的的时间规整函数描述两者之间的时间对应关系。DTW算法在各种模式匹配任务中被广泛使用,如语音识别、动态手势识别和信息检索等中。...
分类:
其他好文 时间:
2015-05-15 19:58:16
阅读次数:
279
时下机器学习和大数据可谓是互联网行业炙手可热的术语,Viktor Mayer在Big Data一书中提到大数据时代我们需要的是混杂性而不是精确性,统计意义在大数据下给了我们更多空间。既然不过分追求精确性,那么字符串完全比配也就不那么重要了,字符串的相似度将会扮演更重要的角色。相似度评价在信息检索系统...
分类:
其他好文 时间:
2015-05-12 01:40:43
阅读次数:
129