字典树概述 字典树,又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。 例题: N ...
分类:
其他好文 时间:
2020-01-06 09:39:17
阅读次数:
111
# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图 ...
分类:
编程语言 时间:
2020-01-04 11:05:07
阅读次数:
81
# 笨方法,直接把需要替换掉的字符写到一个list中 si =[] def fre(TargetName,desName): '''打开 TargetName 文本,统计总单词数、独特的单词数、单词词频,并写入 desName 文件中''' dict = {} # 存放单词 number = 0 # ...
分类:
编程语言 时间:
2020-01-02 22:23:04
阅读次数:
98
通过动态规划思想, 拆分子问题, 结合有向图的联合概率写法, 用到D-separation性质来 优化F/B形式,即状态转移矩阵和发射概率矩阵 ...
分类:
编程语言 时间:
2019-12-30 23:08:33
阅读次数:
150
概括:朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法,在监督学习领域有着很重要的应用。朴素贝叶斯是建立在“全概率公式”的基础下的,由已知的尽可能多的事件A、B求得的P(A|B)来推断未知P(B|A),是的有点玄学的意思,敲黑板!!! 优点: ...
分类:
其他好文 时间:
2019-12-13 14:20:21
阅读次数:
295
一、字典树描述:Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。 Trie的核心思想是空间换时间。利用字符 ...
分类:
其他好文 时间:
2019-12-07 14:45:17
阅读次数:
115
import org.apache.spark.{SparkConf, SparkContext} object wc2 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").s ...
分类:
其他好文 时间:
2019-12-03 15:30:38
阅读次数:
89
7 1 词频统计 (30 分) 请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔 ...
分类:
其他好文 时间:
2019-11-30 09:29:19
阅读次数:
192
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:
其他好文 时间:
2019-11-18 16:56:51
阅读次数:
240
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:
编程语言 时间:
2019-11-18 15:38:18
阅读次数:
73