本文由云+社区发表 | 导语 问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。问答系统是目前人工智能和自然语言处 ...
分类:
其他好文 时间:
2019-01-07 21:20:02
阅读次数:
154
课程: 6.891 (Fall 2003): Machine Learning Approaches for Natural Language Processing http://www.ai.mit.edu/courses/6.891-nlp/ CS 276 / LING 286 Informat ...
分类:
编程语言 时间:
2019-01-06 15:37:01
阅读次数:
305
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 1、实现类 2、方法: ...
分类:
其他好文 时间:
2018-12-31 00:03:30
阅读次数:
340
背景 在研究和新闻文章中,关键词构成了一个重要的组成部分,因为它们提供了文章内容的简洁表示。关键词在从信息检索系统,书目数据库和搜索引擎优化中定位文章方面也起着至关重要的作用。关键词还有助于将文章分类为相关主题或学科。 提取关键词的传统方法涉及基于文章内容和作者的判断手动分配关键词。这涉及大量时间和 ...
分类:
其他好文 时间:
2018-12-25 18:04:26
阅读次数:
1681
2.1 SELECT语句 从一个或多个表中检索信息。 2.2 检索单个列 上述语句利用SELECT从Products表中检索一个名为prod_name的列。所需的列名写在SELECT关键字之后。 2.3 检索多个列 想从一个表中检索多个列,必须在SELECT关键字之后给出多个列名,列名之间用逗号隔开 ...
分类:
其他好文 时间:
2018-12-19 23:58:39
阅读次数:
229
理论知识总结 1、爬虫的出现,可以在一定程度上代替手工访问网页,所以,原先我们需要人工去访问互联网信息的操作,现在都可以用爬虫自动化实现,这样可以更高效率地利用好互联网中的有效信息。 2、检索是一种行为,而索引是一种属性。如果有一个好的索引,则可以提高检索的效率,若没有索引,则索引的效率会很低。 3 ...
分类:
其他好文 时间:
2018-12-08 11:12:47
阅读次数:
105
在现如今,随着互联网技术飞速的发展,目前有不少朋友询问关于大数据方面的问题,比如什么是大数据开发啊,和大数据相关的技术是什么呢等问题,我们今天就浅谈一下大数据开发及和大数据相关的技术的问题。 首先,大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要 ...
分类:
其他好文 时间:
2018-12-05 17:31:39
阅读次数:
215
搜索引擎是目前人们获取信息最重要的方式之一,其最基本最核心的功能是信息检索,找到含有关键字的网页或文档,然后按照一定排序将结果给出,在此基础之上,能够提供更多更复杂的功能来提升用户体验。对于一个成熟的搜索系统,用户看似简单的搜索过程,需要在系统中经过多个环节,多个模块协同工作,才能提供一个让人满意的 ...
分类:
其他好文 时间:
2018-11-10 22:46:40
阅读次数:
177
1.A Click Sequence Model for Web Search(日志分析) 更好的理解用户行为对于推动信息检索系统来说是非常重要的。已有的研究工作仅仅关注于建模和预测一次交互行为,例如点击行为。本文首次关注建模和预测交互事件序列。具体来讲就是点击序列(Sequences of cli ...
分类:
其他好文 时间:
2018-11-10 22:38:46
阅读次数:
222
摘要: 主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本的搜索上都起到非常大的作用。 引言: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关 ...
分类:
其他好文 时间:
2018-11-10 17:54:24
阅读次数:
330