Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。在Java开发环境里Lucene是一个成熟的免费开源工具。就其本身而言,Lucene是当前以及最近几年最受欢迎的免费Java信息检索程序库。——《百度百科》
这篇博文主要从两个方面出发,首先介绍一下Lucene中的全文搜索原理,其次通过...
分类:
Web程序 时间:
2016-07-08 00:15:44
阅读次数:
343
一、免费学术搜索引擎 1.谷歌学术:http://scholar.glgoo.org/ 2.百度学术:http://xueshu.baidu.com/ 3.360学术: 4.读秀:http://www.duxiu.com/ 5.必应: 1.Scholar google:http://scholar. ...
分类:
Web程序 时间:
2016-05-25 10:45:56
阅读次数:
1342
Dirichlet Process标签(空格分隔): LDA DMM DP Dirichlet Dirichlet-Process作者: 王琳(大连理工大学信息检索研究室)写在前头
对于非参数化的机器学习模型,我之前研究的并不多。通过这几天的学习,简单总结一下我所了解到的非参数化的模型。
鉴于非参数化的学习模型涉及大量的概率计算,晦涩难懂,然而在这篇总结材料中,我并不细推每个公式,而是...
分类:
其他好文 时间:
2016-05-18 19:20:29
阅读次数:
469
一 集成百度地图最终的效果二 知识点1 信息检索2 地图大头针和导航SDK三 集成百度地图SDK1 百度搜索百度地图SDK2 注册账号(尽量)–>如果没有账号,最好去注册一个账号(我这里就不细说注册账号的步骤了)3 由于我们要做的是和百度地图相关的,所以直接按照下面图片点击即可(这里我将一一介绍ios中地图的相关开发)4 点击ios地图SDK里面是一些相关概述5 按照图片点击进入下面6 相关解释6...
分类:
编程语言 时间:
2016-05-12 06:53:46
阅读次数:
481
一:什么是NLPIR? NLPIR汉语分词系统(自然语言处理与信息检索共享平台),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年,内核升级10次。 全球用户突破20万,先后获得了 ...
分类:
其他好文 时间:
2016-05-09 15:50:35
阅读次数:
170
对话模型此前的研究大致有三个方向:基于规则、基于信息检索、基于机器翻译。基于规则的对话系统,顾名思义,依赖于人们周密设计的规则,对话内容限制在特定领域下,实际应用如智能客服,智能场馆预定系统。基于信息检索是指根据输入语句,在回复候选集中匹配最相近的语句作为回复,涉及到特征与排序算法的选择。优点是得到 ...
分类:
其他好文 时间:
2016-05-07 00:56:38
阅读次数:
685
目录目录
Active Directory概念
创建AD DS域服务Active Directory概念AD(活动目录):是一种组织资源信息的方法,目录的意义在于我们可以通过标题或者说搜索条件来简单而有效率的在大量数据中查找匹配的信息。支撑这种信息检索的技术就是LDAP协议。AD域:为了避免账户数据量过大造成的管理不便,我们会将所有的账户数据按照域的概念来划分,再分别对每一个域进行管理。一般AD域或...
源地址:http://grunt1223.iteye.com/blog/828192 一、引言 多媒体识别是信息检索中难度较高且需求日益旺盛的一个问题。以图像为例,按照图像检索中使用的信息区分,图像可以分为两类:基于文本的图像检索和基于内容识别的图像检索(CBIR:Content Based Ima ...
分类:
其他好文 时间:
2016-04-18 17:06:01
阅读次数:
260
Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);在信息检索(如搜索引擎)、自然语言处理和检测分类中经常会使用这些参数。 Precision:被检测出来的信息当中正确的或者相关的(也就是你想要的)信息中所占的比例(预测的正样本数占总样本的比例); Recal ...
分类:
其他好文 时间:
2016-04-06 23:09:55
阅读次数:
383
网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具。 接下来就介绍一下爬虫的简单实现。 爬虫的工作流程如下 爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。 下面开始逐步分析爬虫的实现。 1. 待下载集合与已下载集合 为了保存需要下载的URL,同 ...