随着互联网的迅速普及与发展,网络舆论对社会生活的影响力越来越大, 网络口碑研究也逐渐形成一个新兴行业。有效的网络口碑研究,需要全方位地倾听网民的声音。 信息检索技术的应用,有效地提高了网络口碑研究的工作效率。 Lucene 作为当今最知名的开源信息检索库,被广泛应用于各种与全文检索相关的项目中。 ....
分类:
Web程序 时间:
2014-11-11 20:32:02
阅读次数:
240
评估推荐程序可以运用经典的信息检索(information retrieval)度量标准:查准率和查全率。这些术语通常用在像搜索引擎这样的系统中,即从许多可能的搜索结果中返回一组最佳结果。 搜索引擎应避免在top结果中返回无关的信息,而应竭力返回尽可能相关的结果。在一些对“相关”的定义中,查准...
分类:
其他好文 时间:
2014-11-11 12:16:03
阅读次数:
130
最近学习BoW模型,将自己网上看到的资料及对论文的理解,将BoW模型总结如下!
BoW模型
Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information
Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词...
分类:
其他好文 时间:
2014-11-10 23:27:42
阅读次数:
1675
这里是我整理的一些自己知道的信息检索知识的备忘document: 相当于数据块里的一条记录field: 相当于数据库里的一列term: 指某个field的词,英文单词一般会转词的原型tf:term在field内的词频率函数df:term在全文档集合内的频率函数idf:term在全文档集合内的逆向频率...
分类:
其他好文 时间:
2014-11-06 01:59:40
阅读次数:
174
python解析百度网页源代码:取搜索引擎返回的前page_num*10个链接的url...
分类:
编程语言 时间:
2014-10-28 20:09:17
阅读次数:
232
李航:http://research.microsoft.com/en-us/people/hangli/,是MSRA Web Search and Mining Group高级研究员和主管,主要研究领域是信息检索,自然语言处理和统计学习。近年来,主要与人合作使用机器学习方法对信息检索中排序,相关性...
分类:
编程语言 时间:
2014-10-26 18:19:05
阅读次数:
208
字典树(Trie)是一种很特别的树状信息检索数据结构,如同其名,它的构成就像一本字典,可以让你快速的进行字符插入、字符串搜索等。字典树设计的核心思想是空间换时间,所以数据结构本身比较消耗空间。但它利用了字符串的共同前缀(Common Prefix)作为存储依据,以此来节省存储空间,并加速搜索时间。T...
分类:
其他好文 时间:
2014-10-24 23:38:01
阅读次数:
399
Lucene简介Lucene是一个基于Java的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene目前是ApacheJakarta家族中的一个开源项目。也是目前最为流行的基于Java开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于Lucene..
分类:
Web程序 时间:
2014-10-18 03:08:34
阅读次数:
241
学习信息检索课程,老师让写一个倒排索引与查询处理的程序,于是抱着试试的心态自学python写了出来。
整个没有什么太大的算法技巧,唯一的就是查询处理那里递归函数正反两次反复查找需要多调试下。
数据结构:
#-*-coding:utf-8-*-
#!/usr/bin/python
'''
数据结构
建立索引
mydir 文档列表
onedoc 每一个文档
mydoc 当前查询的文档...
分类:
编程语言 时间:
2014-10-13 11:30:49
阅读次数:
430