搜索关键字：语料库，搜索到191个结果！码迷,mamicode.com！

TF-IDF学习笔记

计算文本的权重向量，有个很有效的权重方案：TF-IDF权重策略。TF-IDF含义是词频逆文档频率，指的是，如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或短语具有很好的分类区分能力，适合用来分类。简单的说，TF-IDF(词频-逆文档频率)，它可以反映出语料库中某篇文档 ...

分类：其他好文时间：2017-05-31 00:29:30 阅读次数：451

浅谈自然语言处理基础（下）

命名实体识别命名实体的提出源自信息抽取问题，即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息，而人名、地名、组织机构名、时间和数字表达式结构化信息的关键内容，所以需要从文本中去识别这些实体指称及其类别，即命名实体识别和分类。 21世纪以后，基于大规模语料库的统计方法成为自然语言处 ...

分类：编程语言时间：2017-05-15 00:38:59 阅读次数：3143

唐诗生成器

使用唐诗语料库，经过去噪预处理、分词、生成搭配、生成主题等过程，生成唐诗。

分类：其他好文时间：2017-05-14 01:03:58 阅读次数：3019

nltk与ipython悲伤的故事之内存也许溢出。。。

一段nltk的代码，按照讲解用于在布朗语料库中分析情态动词在不同文体中出现的次数ipython运行，python版本3.5，代码如下importnltk fromnltk.corpusimportbrown cfd=nltk.ConditionalFreqDist( (genre,word) forgenreinbrown.categories() forwordinbrown.words(categories=gen..

分类：编程语言时间：2017-05-04 16:10:28 阅读次数：326

CRF++地名实体识别（特征为词性和词）

http://x-algo.cn/index.php/2016/02/29/crf-name-entity-recognition/ 类似使用CRF实现分词和词性标注，地域识别也是需要生成相应的tag进行标注。这里使用的语料库是1998年1月人民日报语料集。最终学习出来的模型，对复杂的地名识别准确率 ...

分类：其他好文时间：2017-04-28 20:33:12 阅读次数：361

循环神经网络RNN公式推导走读

０语言模型－N-Gram 语言模型就是给定句子前面部分，预测后面缺失部分ｅｇ．我昨天上学迟到了，老师批评了____。 N-Gram模型：　，对一句话切词我昨天上学迟到了，老师批评了 ____。２－N-Gram 会在语料库中找　了　后面最可能的词；３－N-Gram 会在预料库中找 ...

分类：其他好文时间：2017-04-15 20:19:39 阅读次数：359

Python 文本相似度分析

环境 Anaconda3 Python 3.6, Window 64bit 目的利用 jieba 进行分词，关键词提取利用gensim下面的corpora，models，similarities 进行语料库建立，模型tfidf算法，稀疏矩阵相似度分析代码 # -*- coding: utf-8 ...

分类：编程语言时间：2017-03-29 21:02:54 阅读次数：411

使用朴素贝叶斯分类器过滤垃圾邮件

1.从文本中构建词向量将每个文本用python分割成单词，构建成词向量，这里首先需要一个语料库，为了简化我们直接从所给文本中抽出所有出现的单词构成一个词库。 2.利用词向量计算概率p(x|y) When we attempt to classify a document, we multiply ...

分类：其他好文时间：2017-03-28 20:46:16 阅读次数：287

盘点一下数据平滑算法

在自然语言处理中，经常要计算单词序列（句子）出现的概率估计。我们知道，算法在训练时，语料库不可能包含所有可能出现的序列。因此，为了防止对训练样本中未出现的新序列概率估计值为零，人们发明了好多改善估计新序列出现概率的算法，即数据平滑算法。 Laplace 法则最简单的算法是Laplace法则，思路 ...

分类：编程语言时间：2017-03-26 21:11:59 阅读次数：402

基于统计的自动分词算法

简介：利用字与字间、词与词间的同现频率作为分词的依据，不一定需要建立好的词典。需要大规模的训练文本用来训练模型参数。优缺点：不受应用领域的限制；但训练文本的选择将影响分词结果。概率最大统计分词算法一、主要原理对于任意一个语句，首先按语句中词组的出现顺序列出所有在语料库中出现过的词组；将上述词组 ...

分类：编程语言时间：2017-03-24 15:29:15 阅读次数：155

共191条上一页 1 ... 11 12 13 14 15 ... 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)