摘要:本文简要介绍和比较了目前搜索引擎所使用的排序算法,主要包括词频位置加权排序算法,链接分析排序算法,并着重介绍了PageRank算法和HITS算法的思想以及二者比较的优缺点。关键词:搜索引擎;排序; PageRank; HITS1前言Google和Baidu的崛起,很大程度上是由于他们使用了较以...
分类:
编程语言 时间:
2015-06-19 06:37:17
阅读次数:
258
创建目录上传英文测试文档(如果已有则无需配置)。a.dfs上创建input目录hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -mkdir -p inputb.把hadoop目录下的README.txt拷贝到dfs新建的input里hadoop...
分类:
系统相关 时间:
2015-06-15 23:42:45
阅读次数:
346
参考教程在Hadoop上使用庖丁解牛(较复杂,并未采用,可以之后试试)http://zhaolinjnu.blog.sohu.com/264905210.htmlLucene3.3、Lucene3.4中文分词——庖丁解牛分词实例(屈:注意版本)http://www.360doc.com/conten...
分类:
其他好文 时间:
2015-06-15 23:38:44
阅读次数:
610
Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则某个词或短语在一篇文章中出现的次数越多,越相关整个文档集合中包含某...
分类:
编程语言 时间:
2015-06-15 18:03:03
阅读次数:
199
发现本博客的文章也有随意转载了,而且排名还比原文高。所以加上申明,本文不得转载。 http://www.cnblogs.com/cartler 下面是正文,看到微博上词频分析很火,自己也试了下。 过程很简单,但结果很有趣,所以先上结果。 成果基本可以由下面这首"唐诗"概括,o(≧v≦)o~~好棒~ ...
分类:
其他好文 时间:
2015-06-09 06:07:02
阅读次数:
185
Lucene image retrieval是以图搜图的java开源框架,这几天没什么事,就读了点源码,并写了点注释,特在这分享给大家。
这里主要给出的是BOVWBuilder.java、Kmeans.java及Cluster.java。就是用词频对特征进行编码,用到是BOF(bag
of feature)模型,原理就是提取N张图片的特征(比如sift),放在一起就可以得到矩阵,然后对矩阵进...
分类:
其他好文 时间:
2015-06-02 20:11:35
阅读次数:
243
概念TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。逆向文件频率 (inverse ...
分类:
其他好文 时间:
2015-05-21 17:01:55
阅读次数:
161
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能 命令行脚本的调用方法如下: 将需要统计词频的文本写入文件:text.txt
chmod?+x?wfs.sh?&?wfs.sh?-textFile=text.txt?-st...
分类:
其他好文 时间:
2015-05-21 15:44:47
阅读次数:
664
该算法是为了实现对一些专业文章的词汇关联分析而实现的,并不是Apriori的最佳应用,确实对词频分析的一种实践。package com.my.analysis;
import java.util.ArrayList;
import java.util.HashSet;
import java.util.Set;
import redis.clients.jedis.Jedis;
public...
分类:
数据库 时间:
2015-05-11 14:58:00
阅读次数:
148
前几天去吃葫芦头的路上,大飞哥给详细的讲解了他在比较文本相似度实验时对Google的simhash方法高效的惊叹,回来特意去找了原文去拜读。Simhash传统IR领域内文本相似度比较所采用的经典方法是文本相似度的向量夹角余弦,其主要思想是根据一个文章中出现词的词频构成一个向量,然后计算两篇文章对应向...
分类:
Web程序 时间:
2015-05-10 20:15:12
阅读次数:
126