搜索关键字：词频，搜索到1120个结果！码迷,mamicode.com！

字典树详解

字典树概述字典树，又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。例题： N ...

分类：其他好文时间：2020-01-06 09:39:17 阅读次数：111

python 词云

# 导入扩展库import re # 正则表达式库import collections # 词频统计库import numpy as np # numpy数据处理库import jieba # 结巴分词import wordcloud # 词云展示库from PIL import Image # 图 ...

分类：编程语言时间：2020-01-04 11:05:07 阅读次数：81

Python 统计英文词频

# 笨方法，直接把需要替换掉的字符写到一个list中 si =[] def fre(TargetName,desName): '''打开 TargetName 文本，统计总单词数、独特的单词数、单词词频，并写入 desName 文件中''' dict = {} # 存放单词 number = 0 # ...

分类：编程语言时间：2020-01-02 22:23:04 阅读次数：98

HMM - (补充) 参数求解之 F/B 算法细节

通过动态规划思想, 拆分子问题, 结合有向图的联合概率写法, 用到D-separation性质来优化F/B形式,即状态转移矩阵和发射概率矩阵 ...

分类：编程语言时间：2019-12-30 23:08:33 阅读次数：150

基于TF-IDF及朴素贝叶斯的短文本分类

概括：朴素贝叶斯分类器(Naïve Bayes classifier)是一种相当简单常见但是又相当有效的分类算法，在监督学习领域有着很重要的应用。朴素贝叶斯是建立在“全概率公式”的基础下的，由已知的尽可能多的事件A、B求得的P(A|B)来推断未知P(B|A)，是的有点玄学的意思，敲黑板！！！优点： ...

分类：其他好文时间：2019-12-13 14:20:21 阅读次数：295

字典树 && 例题 Xor Sum HDU - 4825 (板子)

一、字典树描述：Trie树，即字典树，又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。 Trie的核心思想是空间换时间。利用字符 ...

分类：其他好文时间：2019-12-07 14:45:17 阅读次数：115

Spark--wordcount（词频降序）

import org.apache.spark.{SparkConf, SparkContext} object wc2 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local").s ...

分类：其他好文时间：2019-12-03 15:30:38 阅读次数：89

7-1 词频统计 (30 分)

7 1 词频统计 (30 分) 请编写程序，对一段英文文本，统计其中所有不同单词的个数，以及词频最大的前10%的单词。所谓“单词”，是指由不超过80个单词字符组成的连续字符串，但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线，其它字符均认为是单词分隔 ...

分类：其他好文时间：2019-11-30 09:29:19 阅读次数：192

机器学习 - 文本分析案例 - 新闻分析

文本分析概念停用词语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取相似度分词语料库词频词频向量整体流程语料清洗 (去掉停用词, 去掉大 ...

分类：其他好文时间：2019-11-18 16:56:51 阅读次数：240

算法--随便写写

结巴分词：jieba.cut() 决策树集成学习无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想：一篇文章中出现多次，其他文章很少出现 TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。词频（term frequen ...

分类：编程语言时间：2019-11-18 15:38:18 阅读次数：73

共1120条上一页 1 ... 7 8 9 10 11 ... 112 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)