TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。T...
分类:
其他好文 时间:
2015-12-05 21:02:43
阅读次数:
219
Tire树,又叫字典树,主要是用来查找单词,词频统计的.老规矩,直接上代码.package tireTree;public class TireTree { TireNode root; public TireTree(TireNode root) { this.root = root; } pr....
分类:
编程语言 时间:
2015-11-15 06:08:27
阅读次数:
1011
潜在语义分析通过矢量语义空间来分析文档和词的关系。基本假设:如果两个词多次出现在同个文档中,则两个词在语义上具有相似性。LSA使用大量文本构成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量...
分类:
其他好文 时间:
2015-11-12 13:31:10
阅读次数:
415
第一步,先计算需要计算概率的词频,单词种类数,类别单词总数(类别均是按照文件夹名区分)(基础数据以及分词了,每个单词一行,以及预处理好)package org.lukey.hadoop.classifyBayes;import java.io.IOException;import java.net....
分类:
其他好文 时间:
2015-11-07 12:05:15
阅读次数:
403
一、定义字典树又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来节约存储空间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。字典树与字典很相似...
分类:
编程语言 时间:
2015-10-17 17:33:18
阅读次数:
217
字典树 又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。(From baik.....
分类:
其他好文 时间:
2015-10-14 00:09:03
阅读次数:
266
1.词频统计sed -e s/'[[:punct:]]'/' '/g -e s/'[[:digit:]]'/' '/g $filename| tr [A-Z] [a-z] | tr '\n' ' '| tr ' ' '\n' | sed '/^$/d' >>newfilename#干掉文本中的标点和...
分类:
系统相关 时间:
2015-09-29 14:24:30
阅读次数:
368
Trie树结构Trie树是一种树形数据结构,又称为单词查找树、字典树,是一种用于快速检索的多叉树结构。典型应用是统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的主要设计思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销。它的优点是可以最大限度的减少无谓...
分类:
其他好文 时间:
2015-09-17 00:59:50
阅读次数:
154
#!/bin/bashif [ $# -ne 1 ];then echo "Usage:$0 filename"; exit -1fifilename=$1egrep -o "\b[[:alpha:]]+\b" $filename | awk '{count[$0]+...
分类:
系统相关 时间:
2015-09-16 12:22:06
阅读次数:
590
转自: http://lutaf.com/210.htm Lucene在进行关键词查询的时候,默认用TF-IDF算法来计算关键词和文档的相关性,用这个数据排序 TF:词频,IDF:逆向文档频率,TF-IDF是一种统计方法,或者被称为向量空间模型,名字听起来很复杂,但是它其实只包含了两个简单规则 某个...
分类:
Web程序 时间:
2015-08-30 19:09:12
阅读次数:
166