码迷,mamicode.com
首页 >  
搜索关键字:信息检索    ( 257个结果
精确率和召回率
我自己通俗的解释: 查全率=召回率=集合里面一共有多少个A,我们正确识别出多少个A,两个比一下 查准率=精确率=在识别出的结果A集合里面,有多少是真正的A,两个比一下 在信息检索领域,精确率和召回率又被称为查准率和查全率, 假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出 ...
分类:其他好文   时间:2018-04-19 14:04:00    阅读次数:124
pyltp安装踩坑记录
LTP(Language Technology Platform)由哈工大社会计算与信息检索研究中心开发,提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 LTP的源码是C++,也提供Java和Python版本。Python版本的安装方法是 ...
分类:其他好文   时间:2018-04-18 23:40:35    阅读次数:1790
IMPORTANT NOTES
TF-IDF算法 TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇 ...
分类:其他好文   时间:2018-04-08 22:44:18    阅读次数:390
NLP入门资料
《统计自然语言处理》 一些基础理论概念,涉及统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘 ...
分类:其他好文   时间:2018-04-06 19:33:58    阅读次数:150
es中的停用词
停用词主要是为了提升性能与精度。从早期的信息检索到如今,我们已习惯于磁盘空间和内存被限制为很小一部分,所以 必须使你的索引尽可能小。 每个字节都意味着巨大的性能提升。 词干提取的重要性不仅是因为它让搜索的内容更广泛、让检索的能力更深入,还因为它是压缩索引空间的工具。一种最简单的减少索引大小的方法就是 ...
分类:其他好文   时间:2018-03-11 22:34:56    阅读次数:1238
Lucene的基本概念----转载yufenfei的文章
Lucene的基本概念 Lucene是什么? Lucene是一款高性能、可扩展的信息检索工具库。信息检索是指文档搜索、文档内信息搜索或者文档相关的元数据搜索等操作。 信息检索流程如下: 1、 将即将检索的资源集合放到本地,并使用某种特定的结构存储,称为索引,这个索引的集合称为索引库。由于索引库的结构 ...
分类:Web程序   时间:2018-02-22 15:27:40    阅读次数:178
机器不学习:浅析深度学习在实体识别和关系抽取中的应用
机器不学习 jqbxx.com -机器学习好网站 命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图。命名实体识别是NLP领域中的一些复杂任务的基础问题,诸如自动问答,关系抽取,信息检索等 ,其效果直接影响后续 ...
分类:其他好文   时间:2018-02-03 21:56:27    阅读次数:271
word2vec
恢复内容开始 出处:https://www.cnblogs.com/iloveai/p/word2vec.html Distributed Representation Ngram本质上是将词当做一个个孤立的原子单元(atomic unit)去处理的。这种处理方式对应到数学上的形式是一个个离散的on ...
分类:其他好文   时间:2018-01-28 23:23:27    阅读次数:300
大数据量、高并发量网站解决方案
随着中国大型IT企业信息化速度的加快,大部分应用的数据量和访问量都急剧增加 ,大型企业网站正面临性能和高数据访问量的压力,而且对存储、安全以及信息检索等 等方面都提出了更高的要求…… 本文中,我想通过几个国外大型IT企业及网站的成功案例,从Web技术人员角度探讨 如何积极地应对国内大型网站即将面临的 ...
分类:Web程序   时间:2018-01-10 11:34:55    阅读次数:218
What is Gensim?
Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口。 基本概念 语料(Corp ...
分类:其他好文   时间:2018-01-08 13:30:09    阅读次数:189
257条   上一页 1 ... 6 7 8 9 10 ... 26 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!