码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
MapReduce实现TF-IDF详解
TF-IDF算法简介 TF-IDF概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文 ...
分类:其他好文   时间:2018-03-09 20:30:35    阅读次数:898
机器不学习:word2vec是如何得到词向量的?
机器不学习 jqbxx.com -机器学习、深度学习好网站 word2vec是如何得到词向量的?这个问题比较大。从头开始讲的话,首先有了文本语料库,你需要对语料库进行预处理,这个处理流程与你的语料库种类以及个人目的有关,比如,如果是英文语料库你可能需要大小写转换检查拼写错误等操作,如果是中文日语语料 ...
分类:其他好文   时间:2018-02-07 22:44:36    阅读次数:229
<知识库的构建> 4-2 实例提取 Instance Extraction
介绍了isA这种二元关系和它的应用即推理Taxonomy以得到完整的Taxonomy,再就是介绍了set expansion方法,从种子出发,找到文本中两个与种子相同的实例,就把该文本中其他的实例都添加至种子表中来逐渐的提取实例的方法,此方法也可以应用于HTML表格中。 ...
分类:其他好文   时间:2018-01-30 00:17:52    阅读次数:152
<知识库的构建> 2-1 有名字的实体的识别 Named Entity Recognition
NER是为了从语料库中找到实体的名字,即要识别语料库中哪写单词使我们想读出来的。NER的实现主要有两种方法,一种是字典法,另一种是正则表达式法。传统字典法就是把entity放入字典中去找是否有对应的名字,很慢,所以后期有了新字典法,即Trie。正则部分强调了如何根据language的形态写出对应的正... ...
分类:其他好文   时间:2018-01-29 19:19:10    阅读次数:121
<知识库的构建> 2-3 消歧 Disambiguaion
主要讲了消歧的2种方式,即停止词,上下文,大语料库和小语料库消歧的方式是不同的,文章中的实体要注意协调一致标准。 ...
分类:其他好文   时间:2018-01-29 19:13:04    阅读次数:172
自然语言处理--语料
语料库可以看成一种数据库,里面存储的是语言数据。所谓的语料就是语言数据,有很多种形式,最简单的是文本,此外还有音频,视频等。一句话,一段文字就是一份语料。若干个类似的资料集合在一起就是语料库。对这些语言数据(语料)可以进行标注,以达到增值的目的,这里的价值包括研究价值,商业价值等。现在的语料库一般都 ...
分类:编程语言   时间:2018-01-08 16:48:01    阅读次数:203
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
博客出处:http://www.cnblogs.com/maybe2030/ 阅读目录 1. 词向量 2.Distributed representation词向量表示 3.词向量模型 4.word2vec算法思想 5.doc2vec算法思想 6.参考内容 深度学习掀开了机器学习的新篇章,目前深度学 ...
分类:其他好文   时间:2018-01-03 19:37:15    阅读次数:420
有道语料库爬虫
from bs4 import BeautifulSoupimport urllib.parseimport reimport requestsimport time index = 0session = requests.session()f = open('C:\\Users\\Administ ...
分类:其他好文   时间:2017-10-13 17:53:42    阅读次数:211
LDA详解
PART 1 这个性质被叫做共轭性。共轭先验使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极?的简化。 V:文档集中不重复的词汇的数目 语料库共有m篇文档,; 对于文档,由个词汇组成,可重复; 是第m个文档中的第n个词。 :文档集中文档的总数 :第m个文档中包含的词汇总数 :文档... ...
分类:其他好文   时间:2017-09-30 15:01:49    阅读次数:301
LDA
LDA 1 概述 LDA(Latent Dirichlet allocation)潜在狄立克雷分配模型,它是将文档集中每篇文档的主题按照概率分布的形式给出,是一种典型的概率生成性模型,能够发现语料库中潜在的主题信息,因此也称为LDA主题模型。它是一种无监督学习,可以应用于推荐系统之中,其优点在于无需... ...
分类:其他好文   时间:2017-09-30 13:24:22    阅读次数:161
191条   上一页 1 ... 9 10 11 12 13 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!