1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/.....
分类:
其他好文 时间:
2015-05-09 20:15:03
阅读次数:
136
Implement a trie withinsert,search, andstartsWithmethods.Trie,又称单词查找树或键树,是一种树形结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计或是前缀匹配。它有3个基本性质:根节点不包...
分类:
其他好文 时间:
2015-05-09 16:26:28
阅读次数:
154
由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手。于是自己编写了TopK的代码。TopK的意思就是从原文件中找出词频排名前K的所有单词。首先分析该问题,从中我们可以得到启发:要想知道词频排名前K的所有.....
分类:
其他好文 时间:
2015-05-06 21:11:58
阅读次数:
123
1、安装eclipse准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz安装 1、解压文件。 2、创建图标。ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录vim /usr/share...
分类:
其他好文 时间:
2015-05-05 23:49:45
阅读次数:
233
需要先统计词频,再进行排序----------词频统计---------package TopK;import java.io.IOException;import java.util.StringTokenizer; import org.apache.hadoop.conf.Configurat...
分类:
其他好文 时间:
2015-05-05 19:00:55
阅读次数:
248
第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
思路:切换到目标目录,然后遍历该目录下的txt文件,用正则表达式匹配响应的单词和数字,然后让Counter计算单词的词频,并认为排除掉stop word后出现最多的词是最重要的词。
注:stopword就是类似 a/an/and/are/then 的这...
分类:
编程语言 时间:
2015-04-21 18:07:15
阅读次数:
149
一:如果是小文件,可以一次性读入到数组中,使用方便的数组计数函数进行词频统计(假设文件中内容都是空格隔开的单词): <?php $str = file_get_contents("/path/to/file.txt"); //get string from file pre...
分类:
编程语言 时间:
2015-04-21 09:23:40
阅读次数:
108
第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。思路:用正则表达式匹配响应的单词和数字,然后让Counter计算单词的词频,再用most_common方法返回一个按照词频排序的包含该词语和该词语出现的次数的元组的列表。0004.统计单词.py#!/usr/bin/env python
#coding: utf-8
import re
from collections import...
分类:
编程语言 时间:
2015-04-17 22:17:56
阅读次数:
225
Trie树又称单词查找树,多应用与搜索引擎或者输入法的词频统计,利用字符串的公共前缀加快查找速度。第一次接触,不过代码还是比较好写的。Impl: 1 #include 2 #include 3 #include 4 5 struct TrieTree 6 { 7 int count;...
分类:
其他好文 时间:
2015-04-11 08:55:08
阅读次数:
115