码迷,mamicode.com
首页 >  
搜索关键字:信息检索    ( 257个结果
什么是搜索引擎蜘蛛机器人?是如何工作的
什么是搜索引擎蜘蛛机器人?是如何工作的? 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtag ...
分类:其他好文   时间:2016-03-26 15:38:44    阅读次数:173
用R进行文本分析初探——以《红楼梦》为例
刚刚接触R语言和文本分析,为了将二者结合,试着对《红楼梦》进行分析,首先对《红楼梦》进行分词处理,并统计词频,同时画出标签云。 其实文本分析还可以分析其它很多东西,我的下一步打算分析新浪微博。现在先写一个小的分析,作为学习用。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的
分类:其他好文   时间:2016-03-21 18:22:35    阅读次数:1138
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一...
分类:其他好文   时间:2016-03-10 12:34:47    阅读次数:304
信息检索导论 第二章 阅读笔记
1. 词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)。在这个过程中,可能会同时去掉一些特殊字符,如标点符号等。 输入:Friends, Romans, Countrymen, lend me your ears; 输出:Friends Romans Cou
分类:其他好文   时间:2016-02-22 20:51:19    阅读次数:331
动态时间规整(DTW) 转载
Dynamic Time Warping(DTW)诞生有一定的历史了(日本学者Itakura提出),它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法。应用也比较广,主要是在模板匹配中,比如说用在孤立词语音识别(识别两段语音是否表示同一个单词),手势识别,数据挖掘和信息检索等中。
分类:其他好文   时间:2016-02-20 16:03:38    阅读次数:475
tf–idf算法解释及其python代码实现(上)
tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要,但同时如果这个词又在非常...
分类:编程语言   时间:2015-12-23 21:12:25    阅读次数:1036
ython模块 (psutil)
psutilpsutil是Python中一个系统信息检索模块,可以获取(系统、CPU、内存、网络、磁盘)等信息,可以应用于系统的监控、健康状态检查,等同于shell中的ps、free、top、df功能的合集CPU psutil.cpu_count psutil.cpu_percent psut...
分类:其他好文   时间:2015-12-22 01:14:39    阅读次数:215
Android学习笔记之使用百度地图实现路线规划+公交信息检索
PS:装了个deepin,感觉真的很高大上.学习内容:1.公交信息检索2.路线规划 关于百度地图的开发也就这么多了.重要的部分也就那么些.原本打算搞到poi搜索就算了,不过看到了这两个方面还是忍不住去涉猎一下.其实实现的模式和poi搜索没有什么太多的区别.只要将数据信息发送给百度地图的服务器,我们对...
分类:移动开发   时间:2015-12-13 21:42:51    阅读次数:198
特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术
TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。T...
分类:其他好文   时间:2015-12-05 21:02:43    阅读次数:219
[IR课程笔记]Page Rank
主要目的: 在网络信息检索中,对每个文档的重要性作出评价。Basic Idea: 如果有许多网页链接到某一个网页,那么这个网页比较重要。 如果某个网页被一个权重较大的网页链接,那么这个网页比较重要。随机游走模型: 过程:1.在所有网页中,随机选择一个网页作为游走的开端。 2.然后在当前网...
分类:其他好文   时间:2015-10-28 18:49:47    阅读次数:219
257条   上一页 1 ... 13 14 15 16 17 ... 26 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!