码迷,mamicode.com
首页 >  
搜索关键字:词频    ( 1120个结果
第一次作业
在这次作业中,我用了java实现了词频排序程序,输入规格如下:Require:1、搜索路径由命令行参数输入。应为全路径,应为文件夹路径而非具体文件路径,否则程序报错。2、搜索单词由控制台输入。Effect:1、输出格式如PPT,上下文输出时,忽略标点符号。2、任何输入错误(包括命令行、控制台、文件中...
分类:其他好文   时间:2014-09-25 15:30:39    阅读次数:305
第一次软工作业 个人项目 词频统计
1.预计完成时间:在一开始的时候,我并不认为这项作业的完成难度有多大。因为觉得这个程序主要的部分就是三块码,读入当前目录下的所有内容,统计单词和排序,但是我对于C++和C#两种语言都不熟悉,所以准备先用两天来熟悉语言(后来发现这个决定是错误的。。至少 不应该用这么长的时间)。在程序的具体模块中,我划...
分类:其他好文   时间:2014-09-25 10:46:48    阅读次数:213
文档词频统计
一、计划首先鉴于之前只学习过c程序和java程序的语法,对c++/c#一无所知,学习语法大约5小时。虽然上学期写过一个类似的java程序,但感觉功能还是有些区别,而且java与c++的方法好多不同,所以并不能直接在其基础上修改。写各个小功能的函数3小时,写递归函数扫描文件夹3小时。完成之后还需要对程...
分类:其他好文   时间:2014-09-25 03:09:58    阅读次数:259
TF-IDF算法扫盲2
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件...
分类:其他好文   时间:2014-09-24 18:51:57    阅读次数:252
软件工程作业--词频统计
预计用时:在刚接到这个作业的时候,根据上学期的经验,我预计完成这份作业需要的时间为:查找资料1小时,学习c#基础知识2小时,写代码4小时,调试测试1小时实际用时:但是,当我真正开始写这份作业之后,才意识到这次的作业远比我想象预计中的复杂,于是,等做完作业之后,我的实际用时是:查找资料2小时,学习c#...
分类:其他好文   时间:2014-09-24 13:14:16    阅读次数:223
个人项目-词频统计
开发语言:C#开发平台:Visual Studio 2013 Professional预计时间:建立工程基本框架:半小时模块-递归寻找所有文件:半小时模块-扫描&分离单词:一个半小时Debug&优化:两小时实际时间:预计时间x3事实证明,预计时间是建立在一个相当顺利的基础上才能达到的。在实际Codi...
分类:其他好文   时间:2014-09-24 02:54:35    阅读次数:325
软件工程基础/个人项目1
实现一个控制台应用程序,来统计一个文件夹下的单词频率要求1.递归地进行统计2.统计的文件格式为 .txt , .cpp , .h , .cs3.单词定义:开头有至少3个英文字母,后面可以追加英文字母或数字4.分隔符定义:空白符,非英文数字的字符5.大小写:同一个单词大小写不同不区分开统计6.输出:输...
分类:其他好文   时间:2014-09-23 22:47:05    阅读次数:300
C++学习之IO流
本博文主要介绍IO流中fstream,iterator的简单应用。问题描述:a):找一篇文章(The Bble Holy) ,将其所有的单词输入vector中,并统计其单词个数b):增加统计词频功能,用结构体实现(word ,count) ,将结构体存入vector中c):增加体用词功能。 1):....
分类:编程语言   时间:2014-09-19 23:40:46    阅读次数:372
数据结构-4-Trie树:应用于统计、排序与搜索 原理详解
Trie树:应用于统计、排序和搜索  1. trie树定义   1.Trie树 (特例结构树)         Trie树,又称单词查找树、字典树,是一种树形结构,是一种哈希树的变种,是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。...
分类:其他好文   时间:2014-09-04 09:48:08    阅读次数:270
特征抽取
特征抽取算是自然语言处理领域一个比较重要的概念了,近期由于需要又要重新回顾下这方面的知识,顺便也总结下所有的方法。特征抽取就是找出一些词来代表文本,表述上既能表达文本所要传递的内容,形式上又要精炼精简。那什么样的词才能代表这篇文本呢?很自然的我们就会想到经常出现的词即词频很高的词。这样又带来一个问题...
分类:其他好文   时间:2014-09-01 17:37:53    阅读次数:216
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!