如果把上世纪90年代CERN正式发布web标准和第一个WEB服务的出现当作互联网的开始,那么互联网站的发展之经历了短短20多年的时间。在20多年的时间里,互联网的世界发生了变化,今天,全球有近一半的人口使用互联网,人们的生活因为互联网而产生了巨大的变化。从信息检索到即使通信,从电子购物到文化娱乐,....
分类:
Web程序 时间:
2014-06-14 10:30:05
阅读次数:
294
一、中文分词:分词就是利用计算机识别出文本中词汇的过程。
1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控
;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:
其他好文 时间:
2014-06-07 06:04:35
阅读次数:
511
概念
在谈全文检索之前,首先让我们来了解一下什么是信息检索。信息检索就是从信息集合中找出与用户需求相关的信息。被检索的信息除了文本外,还有图像、音频、视频等多媒体信息,这里我们只讨论文本信息的检索。
全文检索是信息检索技术的一种,主要是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文本语义上的匹配。在信息检索工具中,全文检索是最具通用性和实用性的。...
分类:
其他好文 时间:
2014-06-05 07:42:26
阅读次数:
265
了解搜索引擎的基本工作原理1.搜索引擎的概念在浩瀚的网络资源中,搜素引擎(Search
Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。我们这样对搜索引擎进行定义:搜索引擎是一种能够通过因特网接受用户的查询命令,并向用户提供符合其查询要求的信息资源网址的系统。据统计,...
分类:
其他好文 时间:
2014-05-30 13:33:40
阅读次数:
295
1. Sphin x简介
1.1. 什么是全文检索
全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术 。检索的对象有可能是文章的标题,也有可能是文章的作者,也有可能是文章摘要或内容。
1.2. 介绍
Sphin x是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能 ,使得应用程序更...
分类:
其他好文 时间:
2014-05-23 07:36:05
阅读次数:
227
1.Trie树简介
Trie树,又称字典树、前缀树,被用于信息检索(information retrieval)的数据结构。Trie一词便来自于单词retrieval。基本思想:用字符串的公共前缀降低查询时间。比如,在最优的查询二叉树中查询关键字的时间复杂度为M * log N,M是字符串最大长度,N为字符串数量;而用Trie树时,只需O(M)时间。
[1] 中给出一个简单...
分类:
其他好文 时间:
2014-05-15 23:36:16
阅读次数:
394
信息检索(IR)的评价指标介绍 - 准确率、召回率、F1、mAP、ROC、AUC 分类:
1.自然语言处理/机器学习 2011-07-06 22:15 9817人阅读 评论(7) 收藏
举报performance算法fp工具2010c在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评...
分类:
其他好文 时间:
2014-05-15 17:01:10
阅读次数:
382