计算文本的权重向量,有个很有效的权重方案:TF-IDF权重策略。TF-IDF含义是词频逆文档频率,指的是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的分类区分能力,适合用来分类。简单的说,TF-IDF(词频-逆文档频率),它可以反映出语料库中某篇文档 ...
分类:
其他好文 时间:
2017-05-31 00:29:30
阅读次数:
451
命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,而人名、地名、组织机构名、时间和数字表达式结构化信息的关键内容,所以需要从文本中去识别这些实体指称及其类别,即命名实体识别和分类。 21世纪以后,基于大规模语料库的统计方法成为自然语言处 ...
分类:
编程语言 时间:
2017-05-15 00:38:59
阅读次数:
3143
使用唐诗语料库,经过去噪预处理、分词、生成搭配、生成主题等过程,生成唐诗。
分类:
其他好文 时间:
2017-05-14 01:03:58
阅读次数:
3019
一段nltk的代码,按照讲解用于在布朗语料库中分析情态动词在不同文体中出现的次数ipython运行,python版本3.5,代码如下importnltk
fromnltk.corpusimportbrown
cfd=nltk.ConditionalFreqDist(
(genre,word)
forgenreinbrown.categories()
forwordinbrown.words(categories=gen..
分类:
编程语言 时间:
2017-05-04 16:10:28
阅读次数:
326
http://x-algo.cn/index.php/2016/02/29/crf-name-entity-recognition/ 类似使用CRF实现分词和词性标注,地域识别也是需要生成相应的tag进行标注。这里使用的语料库是1998年1月人民日报语料集。最终学习出来的模型,对复杂的地名识别准确率 ...
分类:
其他好文 时间:
2017-04-28 20:33:12
阅读次数:
361
0语言模型-N-Gram 语言模型就是给定句子前面部分,预测后面缺失部分 eg.我昨天上学迟到了,老师批评了____。 N-Gram模型: ,对一句话切词 我 昨天 上学 迟到 了 ,老师 批评 了 ____。 2-N-Gram 会在语料库中找 了 后面最可能的词; 3-N-Gram 会在预料库中找 ...
分类:
其他好文 时间:
2017-04-15 20:19:39
阅读次数:
359
环境 Anaconda3 Python 3.6, Window 64bit 目的 利用 jieba 进行分词,关键词提取 利用gensim下面的corpora,models,similarities 进行语料库建立,模型tfidf算法,稀疏矩阵相似度分析 代码 # -*- coding: utf-8 ...
分类:
编程语言 时间:
2017-03-29 21:02:54
阅读次数:
411
1.从文本中构建词向量 将每个文本用python分割成单词,构建成词向量,这里首先需要一个语料库,为了简化我们直接从所给文本中抽出所有出现的单词构成一个词库。 2.利用词向量计算概率p(x|y) When we attempt to classify a document, we multiply ...
分类:
其他好文 时间:
2017-03-28 20:46:16
阅读次数:
287
在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。 因此,为了防止对训练样本中未出现的新序列概率估计值为零,人们发明了好多改善估计新序列出现概率的算法,即数据平滑算法。 Laplace 法则 最简单的算法是Laplace法则,思路 ...
分类:
编程语言 时间:
2017-03-26 21:11:59
阅读次数:
402
简介:利用字与字间、词与词间的同现频率作为分词的依据,不一定需要建立好的词典。需要大规模的训练文本用来训练模型参数。优缺点:不受应用领域的限制;但训练文本的选择将影响分词结果。 概率最大统计分词算法 一、主要原理 对于任意一个语句,首先按语句中词组的出现顺序列出所有在语料库中出现过的词组;将上述词组 ...
分类:
编程语言 时间:
2017-03-24 15:29:15
阅读次数:
155