-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现 ...
分类:
其他好文 时间:
2017-09-27 13:32:39
阅读次数:
192
TF-IDF及其算法 概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次 ...
分类:
编程语言 时间:
2017-09-27 13:11:32
阅读次数:
197
1,corpus 语料库 a computer-readable collection of text or speech 2,utterance 发音 比如下面一句话:I do uh main- mainly business data processing uh 是 fillers,填充词(Wo ...
分类:
其他好文 时间:
2017-09-23 17:15:15
阅读次数:
502
国内可外用免费语料库下载资源汇总 (一) 国家语委1.国家语委现代汉语语料库http://www.cncorpus.org/现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料 ...
分类:
编程语言 时间:
2017-09-05 00:07:31
阅读次数:
319
概念 1、语料库-Corpus 语料库是我们要分析的所有文档的集合,就是需要为哪些文档来做词频 2、中文分词-Chinese Word Segmentation 指的是将一个汉字序列切分成一个一个单独的词语。 3、停用词-Stop Words 数据处理的时候,自动过滤掉某些字或词,包括泛滥的词如We ...
分类:
编程语言 时间:
2017-08-15 23:32:31
阅读次数:
975
一、介绍 word2vec是Google于2013年推出的开源的获取词向量word2vec的工具包。它包括了一组用于word embedding的模型,这些模型通常都是用浅层(两层)神经网络训练词向量。 Word2vec的模型以大规模语料库作为输入,然后生成一个向量空间(通常为几百维)。词典中的每个 ...
分类:
其他好文 时间:
2017-07-15 11:23:25
阅读次数:
2472
1. LDA基础知识 LDA(Latent Dirichlet Allocation)是一种主题模型。LDA一个三层贝叶斯概率模型,包含词、主题和文档三层结构。 LDA是一个生成模型,可以用来生成一篇文档,生成时,首先根据一定的概率选择一个主题,然后在根据概率选择主题里面的一个单词,这样反复进行,就 ...
分类:
编程语言 时间:
2017-07-12 13:30:25
阅读次数:
147
TensorFlow运行中常用到一些Python第三方模块: numpy 存储和处理大型矩阵的科学计算包 maplotlib 最著名的绘图库 jupyter scikit-image 图像预处理 librosa 音频特征提取的第三方库 nltk 包含着大量的语料库,方便完成自然语言处理的任务,包含分 ...
分类:
其他好文 时间:
2017-07-06 01:05:07
阅读次数:
441
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的经常使用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的当中一份文件的重要程度。字词的重要性随着它在文件里出现的次数成正比添加。但同 ...
分类:
编程语言 时间:
2017-06-30 15:47:04
阅读次数:
202
[TOC] 语料库基本函数表 文本语料库分类 常见语料库及其用法 注意nltk.Text(string) 返回类似text1的Text对象 古藤堡语料库 包含36000本电子书,可以在这里下载 from nltk.corpus import gutenberg print(gutenberg.fil ...
分类:
Web程序 时间:
2017-06-13 22:43:27
阅读次数:
1448