搜索关键字：信息检索，搜索到257个结果！码迷,mamicode.com！

什么是搜索引擎蜘蛛机器人？是如何工作的

什么是搜索引擎蜘蛛机器人？是如何工作的？在互联网发展初期，网站相对较少，信息查找比较容易。然而伴随互联网爆炸性的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先，是1990年由蒙特利尔大学学生Alan Emtag ...

分类：其他好文时间：2016-03-26 15:38:44 阅读次数：173

用R进行文本分析初探——以《红楼梦》为例

刚刚接触R语言和文本分析，为了将二者结合，试着对《红楼梦》进行分析，首先对《红楼梦》进行分词处理，并统计词频，同时画出标签云。其实文本分析还可以分析其它很多东西，我的下一步打算分析新浪微博。现在先写一个小的分析，作为学习用。文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的

分类：其他好文时间：2016-03-21 18:22:35 阅读次数：1138

TF-IDF与余弦相似性的应用（一）：自动提取关键词

这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一...

分类：其他好文时间：2016-03-10 12:34:47 阅读次数：304

信息检索导论第二章阅读笔记

1. 词条化是将给定的字符序列拆分成一系列子序列的过程，其中每个子序列称为一个词条（token）。在这个过程中，可能会同时去掉一些特殊字符，如标点符号等。输入：Friends, Romans, Countrymen, lend me your ears; 输出：Friends Romans Cou

分类：其他好文时间：2016-02-22 20:51:19 阅读次数：331

动态时间规整（DTW）转载

Dynamic Time Warping（DTW）诞生有一定的历史了（日本学者Itakura提出），它出现的目的也比较单纯，是一种衡量两个长度不同的时间序列的相似度的方法。应用也比较广，主要是在模板匹配中，比如说用在孤立词语音识别（识别两段语音是否表示同一个单词），手势识别，数据挖掘和信息检索等中。

分类：其他好文时间：2016-02-20 16:03:38 阅读次数：475

tf–idf算法解释及其python代码实现(上)

tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写，它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要，常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要，但同时如果这个词又在非常...

分类：编程语言时间：2015-12-23 21:12:25 阅读次数：1036

ython模块 (psutil)

psutilpsutil是Python中一个系统信息检索模块，可以获取(系统、CPU、内存、网络、磁盘)等信息，可以应用于系统的监控、健康状态检查，等同于shell中的ps、free、top、df功能的合集CPU psutil.cpu_count psutil.cpu_percent psut...

分类：其他好文时间：2015-12-22 01:14:39 阅读次数：215

Android学习笔记之使用百度地图实现路线规划+公交信息检索

PS：装了个deepin,感觉真的很高大上.学习内容：1.公交信息检索2.路线规划关于百度地图的开发也就这么多了.重要的部分也就那么些.原本打算搞到poi搜索就算了,不过看到了这两个方面还是忍不住去涉猎一下.其实实现的模式和poi搜索没有什么太多的区别.只要将数据信息发送给百度地图的服务器,我们对...

分类：移动开发时间：2015-12-13 21:42:51 阅读次数：198

特征权重量化 TF-IDF 用于信息检索和数据挖掘的加权技术

TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。T...

分类：其他好文时间：2015-12-05 21:02:43 阅读次数：219

[IR课程笔记]Page Rank

主要目的：在网络信息检索中，对每个文档的重要性作出评价。Basic Idea: 如果有许多网页链接到某一个网页，那么这个网页比较重要。如果某个网页被一个权重较大的网页链接，那么这个网页比较重要。随机游走模型：过程：1.在所有网页中，随机选择一个网页作为游走的开端。 2.然后在当前网...

分类：其他好文时间：2015-10-28 18:49:47 阅读次数：219

共257条上一页 1 ... 13 14 15 16 17 ... 26 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)