码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注
在语言学上,词性(Par-Of-Speech, Pos )指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用了不同的词性标注集,一般都含有形容词、动词、名词等常见词性。下图就是HanLP输出的一个含有词性的结构化句子。 ———————... ...
分类:其他好文   时间:2020-02-11 13:14:01    阅读次数:105
二月一号博客
今天学习自然语言的算法 TF-IDF 算法 :关键词提取 TF-IDF的主要思想就是:如果某个词在一篇文档中出现的频率高,也就是TF高;在语料库中其他的文档中很少出现,就是DF低,也就是IDF高,则认为这个词具有很好的类区分能力。 TF为词频(Term Frequency),表示词t在文档d中出现的 ...
分类:其他好文   时间:2020-02-02 00:59:39    阅读次数:86
NLP Calculate the similarity of any two articles resume version
https://radimrehurek.com/gensim/auto_examples/index.html#core-tutorials Calculate the similarity of any two course -Design a program to implement the ...
分类:其他好文   时间:2020-01-31 21:16:24    阅读次数:140
Python爬取百度贴吧内容
参考资料:https://cuiqingcai.com/993.html 即 静觅 » Python爬虫实战二之爬取百度贴吧帖子 我最近在忙学校的一个小项目的时候涉及到NLP的内容。但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味。中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一 ...
分类:编程语言   时间:2020-01-28 09:28:35    阅读次数:74
文本数据处理
1. TF-IDF TF-IDF是一种统计方法,用以评估一个词对一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。 2. TF-IDF使用场景 TF-IDF加权的各种形式常被用搜索引擎应用,作为文件与用户查询之间相关程度的度量 ...
分类:其他好文   时间:2020-01-01 17:05:05    阅读次数:99
用户评论情感极性判别
博客搬家: "用户评论情感极性判别" 本文章介绍百度点石平台上的一个训练赛的赛题代码,赛题是包括用户评论文字的情感判别的分类问题, "赛题链接戳此处" 数据预处理 使用测试数据和训练数据生成语料库 利用语料库,使用word2vec工具,生成可备用的模型,用于将句子转化为向量 数据训练与测试 感觉训练 ...
分类:其他好文   时间:2019-12-24 12:03:06    阅读次数:123
word2vec学习总结
[toc] 1.简介 word2vec是Google于2013年推出的开源的获取词向量word2vec的工具包。它包括了一组用于word embedding的模型,这些模型通常都是用浅层(两层)神经网络训练词向量。 Word2vec的模型以大规模语料库作为输入,通过神经网络训练到一个向量空间(通常为 ...
分类:其他好文   时间:2019-12-22 20:19:52    阅读次数:136
十一周周六
今天是打算做两个图,因为一个图太乱了,而且效果也出不来,人机交互效果不好,所以打算做:人物-机构-行为图,人物-地点-机构图,第一个涉及到关系,第二个只是简单统计该类关键字之下涉及到了哪些区域、人物、机构,以及频率。目前第二个图效果: 提取的内容不是很准确现在,所以后期打算把语料库全部更新。现在接着 ...
分类:其他好文   时间:2019-11-23 16:39:45    阅读次数:78
机器学习 - 文本分析案例 - 新闻分析
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:其他好文   时间:2019-11-18 16:56:51    阅读次数:240
算法--随便写写
结巴分词:jieba.cut() 决策树 集成学习 无监督学习 tf-idf文本特征提取 tf 词频 idf 逆向文档频率 tf-idf 思想:一篇文章中出现多次,其他文章很少出现 TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 词频(term frequen ...
分类:编程语言   时间:2019-11-18 15:38:18    阅读次数:73
191条   上一页 1 2 3 4 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!