因为队友的代码并没有完整的实现个人项目的完整功能。已实现功能:1.对单个单词进行词频统计2.能够按照老师的要求的格式对制定的有效字符串进行匹配,并且输出至指定文件。未实现:1.对连续多个单词进行匹配以及计数2.对已存储的单词进行排序输出。代码优点:1.逻辑严谨2.格式规范优美代码缺点:1.注释较少,...
分类:
其他好文 时间:
2014-10-23 14:14:02
阅读次数:
180
我复审的代码是来自于12061174 李靖的单词搜索代码。 代码能正确实现要求的功能,即从指定的目录下读取所有指定类型的文本文档,统计其中符合规定的“单词”的词频并输出到文本文件中 但是,代码还是存在着一些不足。 1.变量的命名不规范,可读性很差。比如main函数中,使用了d,m之类的名字...
分类:
其他好文 时间:
2014-10-23 01:26:17
阅读次数:
272
当初自己写第一个个人项目——词频统计的时候,就由于自己能力和时间等原因,连老师的要求都没能全部完成。这次要复审同伴的这个作业,有些惭愧啊。看完同伴的这个作业,感觉有很多值得我学习的地方。1 代码格式清晰,各部分函数分工明确,让人很容易读懂代码的内容,了解程序的运行过程;2 用了树的数据结构来存储单词...
分类:
其他好文 时间:
2014-10-22 20:15:01
阅读次数:
215
我复审的是12061160刘垚鹏的代码。刘垚鹏写的是多线程,程序有两个线程,一个线程用来读文件,另一个线程用来统计词频。程序使用了线程安全的容器,大大减少了进程同步的难度。没看出什么大问题,就强行挑点小毛病吧。1.代码风格1 public class Word : IComparable // .....
分类:
其他好文 时间:
2014-10-22 20:09:03
阅读次数:
305
作业一:文章词频统计思路设计与分析:采用最简单的数组作为存储结构,每次读到一个单词就在已经保存的数组中遍历,如果没有找到则加入这一元素,否则增加词的出现频率。最后对词出现的频率进行排序取出前10名输出。代码如下: 1 #include 2 #include 3 #include 4 #in...
分类:
其他好文 时间:
2014-10-22 00:59:06
阅读次数:
234
最近在学习的时候,经常看到使用Trie树数据结构来解决问题,比如“ 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。”
该如何解决? 有一种方案就是使用Trie树加 排序实现 。
什么是Trie 树呢?也就是常说的字典树,网上对此讲得也很多,简单补充一下个人理解: 它实际上相当于把单词的公共部分给拎出来,这样一层一层往上拎直...
分类:
编程语言 时间:
2014-10-15 22:19:34
阅读次数:
281
SCWS是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点,但是如何通过SCWS实现呢?...
分类:
Web程序 时间:
2014-10-11 00:49:54
阅读次数:
355
本博文我们通过三个程序比较统计词频问题的时间复杂度问题;问题描述;1)、找一篇文章,将所有单词输入至程序;(The Bible Holy为例)2)、统计出每个单词的数量,即词频问题;3)、增加停用词功能;(遇到此类词,直接略过)(网上搜)4)、分别统计出读取文件并计算词频时间、排序所用时间;5)、用...
分类:
编程语言 时间:
2014-10-03 13:00:14
阅读次数:
453
一.计划用时 对于完成这个项目,由于作业要求用C#或者C++写,而这两个以前几乎没有接触过,所以我计划阅读题目之后,对题目大概有了自己的想法之后,先是学习一下C#语言,大概一天的时间,方便写程序时好上手,然后,在计划完成项目时,计划把较大的时间用在写收集单词和词频统计方面,大概3-4个小时,在文件....
分类:
其他好文 时间:
2014-09-27 18:52:10
阅读次数:
185