一直没有学字典树,听起来很唬人,闲来无事找一道入门题做做。 字典树:又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无 ...
                            
                            
                                分类:
其他好文   时间:
2019-11-16 12:51:30   
                                阅读次数:
70
                             
                    
                        
                            
                            
                                    TF-IDF TF-IDF统计的是词库所有词的出现频率与在文件级出现频率的倒数的对数乘积。 TF:即词语出现的频率。 IDF:记每个词出现的文件数为 file_i,总文件数为file_num,IDF[I] = log(file_num/(1+file_i)) TF-IDF = TF * IDF 1  ...
                            
                            
                                分类:
其他好文   时间:
2019-11-15 14:00:32   
                                阅读次数:
56
                             
                    
                        
                            
                            
                                    还是以经典案例Wordcount为例: 逻辑思路: 1.先把文本按空格切分成每个单词 flatMap() 2.将每个单词都转换成Tuple2类型(hello ,1) map() 3.将key相同的次数相加(hello , 5) reduceByKey() 4.将(hello , 5) 反转成(5 , ...
                            
                            
                                分类:
编程语言   时间:
2019-11-12 00:47:45   
                                阅读次数:
85
                             
                    
                        
                            
                            
                                    package com_1; import java.io.FileNotFoundException; import java.io.FileReader; import java.io.IOException; import java.util.Scanner; class Word //定义出 ...
                            
                            
                                分类:
编程语言   时间:
2019-11-04 21:17:50   
                                阅读次数:
75
                             
                    
                        
                            
                            
                                    实验目的 1.准确理解Mapreduce的设计原理 2.熟练掌握WordCount程序代码编写 3.学会自己编写WordCount程序进行词频统计 实验原理 MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结 ...
                            
                            
                                分类:
其他好文   时间:
2019-10-30 18:45:16   
                                阅读次数:
105
                             
                    
                        
                            
                            
                                一、网页标题(title) title具有不可替代性,是我们的页内第一个重要标签,是搜索引擎了解网页的入口,和对网页主题归属的最佳判断点。 标题的长度:Google(70KB),35个中文;Baidu(56KB),28个中文 关键字分布:最先出现的词语权重越高 关键词频:主关键词出现3次,辅关键词出 ...
                            
                            
                                分类:
其他好文   时间:
2019-10-28 10:40:18   
                                阅读次数:
96
                             
                    
                        
                            
                            
                                词频分析,分析一段文字或者一段话每个单词出现的频率。对于英文文章,我们可以使用split()函数进行文章段落的切割,对于中文,我们可以使用jieba库进行文章段落的分割。 上面的代码就是对txt这个文本,使用jieba提供的三种分词模式进行分词,得到的结果为。 三种分词模式分别是精确模式、全模式和搜 ...
                            
                            
                                分类:
其他好文   时间:
2019-10-19 14:39:43   
                                阅读次数:
79
                             
                    
                        
                            
                            
                                一、描述模块设计 ========== 1、 m 指定需统计的词组长度 2、 n 指定需要输出的词频排行的前n项 3、 i 指定输入文件 4、 o 指定程序的输出文件 其中,参数之间的顺序并不固定,并且: i 、 o 参数一定会出现 m、 n参数可能都不出现,可能只出现一个,也可能都出现 1、未出现 ...
                            
                            
                                分类:
其他好文   时间:
2019-10-19 13:22:27   
                                阅读次数:
76
                             
                    
                        
                            
                            
                                github 的链接 Github地址: https://github.com/MokouTyan/wordCount 模块分类 分为六个模块: 文件的命令行输入判断 将所有大写文本转为小写 单词词组合法化判断 单词词组统计 词频排序 打印输出 组员职责分工 程序运行截图 提交日志截图 ...
                            
                            
                                分类:
其他好文   时间:
2019-10-19 13:10:14   
                                阅读次数:
64
                             
                    
                        
                            
                            
                                    GitHub链接:https://github.com/Q1176011838/wordcount 一、模块设计 我们小组将这次代码分八部分。1、主函数 2、统计文件单词总数 3、统计文件有效行数 4、将统计数据写入文件、数据输入、统计词组及词频 5、处理命令行输入 6、统计ascii码 7、数据输 ...
                            
                            
                                分类:
其他好文   时间:
2019-10-19 12:54:19   
                                阅读次数:
77