码迷,mamicode.com
首页 >  
搜索关键字:词袋    ( 86个结果
机器学习-文本数据-文本的相关性矩阵 1.cosing_similarity(用于计算两两特征之间的相关性)
函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 ...
分类:其他好文   时间:2019-01-26 22:03:45    阅读次数:337
机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 ...
分类:其他好文   时间:2019-01-26 20:23:40    阅读次数:795
机器学习入门-文本数据-构造Ngram词袋模型 1.CountVectorizer(ngram_range) 构建Ngram词袋模型
函数说明: 1 CountVectorizer(ngram_range=(2, 2)) 进行字符串的前后组合,构造出新的词袋标签 参数说明:ngram_range=(2, 2) 表示选用2个词进行前后的组合,构成新的标签值 Ngram模型表示的是,对于词频而言,只考虑一个词,这里我们在CountVe ...
分类:其他好文   时间:2019-01-26 20:03:11    阅读次数:1971
机器学习入门-文本数据-构造词频词袋模型 1.re.sub(进行字符串的替换) 2.nltk.corpus.stopwords.words(获得停用词表) 3.nltk.WordPunctTokenizer(对字符串进行分词操作) 4.np.vectorize(对函数进行向量化) 5. CountVectorizer(构建词频的词袋模型)
函数说明: 1. re.sub(r'[^a-zA-Z0-9\s]', repl='', sting=string) 用于进行字符串的替换,这里我们用来去除标点符号 参数说明:r'[^a-zA-Z0-9\s]' 配对的模式,^表示起始位置,\s表示终止位置,[]表示取中间部分,这个的意思是找出除字符串 ...
分类:其他好文   时间:2019-01-26 19:32:16    阅读次数:1824
tensorflow实现RNN及Word2Vec
首先介绍一下Word2Vec Word2Vec:从原始语料中学习字词空间向量的预测模型。主要分为CBOW(Continue Bags of Words)连续词袋模型和Skip-Gram两种模式 CBOW:从原始语句(中国的首都是___)推测目标字词(北京)。Skip-Gram正好相反,从目标词反推原 ...
分类:其他好文   时间:2019-01-14 14:32:19    阅读次数:191
视频分类算法
一、传统视频分类方法 深度学习兴起前,大多数视频分类都是基于手工设计的特征和典型的机器学习方法。 比如:基于局部时空域的运动信息和表现信息,利用词袋模型等方式审核才能视频编码,然后利用视频编码来训练分类器(SVM)。这种基于人工设计特征的方法,如HOG、HOF、MBH 等特征,在经过词袋模型或Fis ...
分类:编程语言   时间:2018-12-26 20:00:28    阅读次数:666
【火炉炼AI】机器学习051-视觉词袋模型+极端随机森林建立图像分类器
【火炉炼AI】机器学习051 视觉词袋模型+极端随机森林建立图像分类器 (本文所使用的Python库和版本号: Python 3.6, Numpy 1.14, scikit learn 0.19, matplotlib 2.2 ) 视觉词袋模型(Bag Of Visual Words,BOVW)来源 ...
分类:其他好文   时间:2018-10-23 23:10:00    阅读次数:300
PLSA主题模型
主题模型 主题模型这样理解一篇文章的生成过程: 1、 确定文章的K个主题。 2、 重复选择K个主题之一,按主题-词语概率生成词语。 3、 所有词语组成文章。 这里可以看到,主题模型仅仅考虑词语的数量,不考虑词语的顺序,所以主题模型是词袋模型。 主题模型有两个关键的过程: 1、 doc -> topi ...
分类:其他好文   时间:2018-10-05 21:04:33    阅读次数:185
word2vec 和 doc2vec 词向量表示
Word2Vec 词向量的稠密表达形式(无标签语料库训练) Word2vec中要到两个重要的模型,CBOW连续词袋模型和Skip-gram模型。两个模型都包含三层:输入层,投影层,输出层。 1.Skip-Gram神经网络模型(跳过一些词) skip-gram模型的输入是一个单词wI,它的输出是wI的 ...
分类:其他好文   时间:2018-09-06 23:06:01    阅读次数:315
机器学习---文本特征提取之词袋模型(Machine Learning Text Feature Extraction Bag of Words)
假设有一段文本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段文本的特征呢? 一个简单的方法就是使用词袋模型(bag of words mode ...
分类:系统相关   时间:2018-09-06 02:59:03    阅读次数:711
86条   上一页 1 2 3 4 5 6 ... 9 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!