搜索关键字：词袋，搜索到86个结果！码迷,mamicode.com！

词袋模型（BOW，bag of words）和词向量模型（Word Embedding）概念介绍

例句: Jane wants to go to Shenzhen. Bob wants to go to Shanghai. 一、词袋模型将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的。例如上面2个例句，就可以构成一个词袋，袋子里包括Jane、wants、to、go、Sh ...

分类：其他好文时间：2019-06-05 12:41:03 阅读次数：371

文本数据处理(自然语言处理基础)

文本数据的特征提取,中文分词及词袋模型 1.使用CountVectorizer对文本进行特征提取 2.使用分词工具对中文文本进行分词 3.使用词袋模型将文本数据转为数组对文本数据进一步优化处理 1.使用n-Gram改善词袋模型在调整了CountVectorizer的ngram_range参数之后 ...

分类：编程语言时间：2019-06-04 13:25:42 阅读次数：98

自然语言处理——词向量词嵌入

1 传统方式的缺点使用索引的方式无法表达词之间的相似性，n元模型在很多场合难以取得明显的进步和表现 2 CBow连续词袋模型（周围词预测中心词）、SkipGram 中心词预测周围词 3 参考知识点 " 霍 ...

分类：编程语言时间：2019-05-24 09:18:16 阅读次数：490

文本情感分析(二)：基于word2vec和glove词向量的文本表示

上一篇博客用词袋模型，包括词频矩阵、Tf-Idf矩阵、LSA和n-gram构造文本特征，做了Kaggle上的电影评论情感分类题。这篇博客还是关于文本特征工程的，用词嵌入的方法来构造文本特征，也就是用word2vec词向量和glove词向量进行文本表示，训练随机森林分类器。一、训练word2vec ...

分类：其他好文时间：2019-05-19 18:10:28 阅读次数：149

文本情感分析(一)：基于词袋模型(VSM、LSA、n-gram)的文本表示

现在自然语言处理用深度学习做的比较多，我还没试过用传统的监督学习方法做分类器，比如SVM、Xgboost、随机森林，来训练模型。因此，用Kaggle上经典的电影评论情感分析题，来学习如何用传统机器学习方法解决分类问题。通过这个情感分析的题目，我会整理做特征工程、参数调优和模型融合的方法，这一系列会 ...

分类：其他好文时间：2019-05-19 11:49:23 阅读次数：224

文本离散表示（一）：词袋模型（bag of words）

一、文本表示文本表示的意思是把字词处理成向量或矩阵，以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分，一般可分为字级别、词语级别和句子级别的文本表示。字级别（char level）的如把“邓紫棋实在太可爱了，我想养一只”这句话拆成一个个的字：｛邓，紫，棋，实，在，太 ...

分类：其他好文时间：2019-03-16 19:23:58 阅读次数：1248

机器学习实战朴素贝叶斯

朴素贝叶斯朴素贝叶斯概述文本分类准备数据:从文本中构建词向量训练算法：从词向量计算概率贝叶斯分类函数词袋模型一个小优化，相比与之前只统计词出现与否的词条模型，词袋模型统计词出现的次数垃圾邮件过滤不清楚为什么我做出来的错误率这么高，算了，先放着吧最后一个不写了 ...

分类：其他好文时间：2019-02-26 11:54:06 阅读次数：195

NLP学习 DAY1

Bag-of-words model: 词袋模型是一种在NLP和IR中的简化的表示形式。在该模型中，文本被表示为成袋的单词，不考虑其语法甚至是单词顺序。词袋模型通常被用在文档分类的方法中，在这些方法中，每个单词的出现频率被用作训练分类器的特征。在实际中，词袋模型主要用作产生特征的工具。这种列表表示 ...

分类：其他好文时间：2019-02-25 20:22:11 阅读次数：161

【368】相关术语说明

Vector Space Model：向量空间模型参考: 向量空间模型(Vector Space Model)的理解词袋模型 TF-IDF TF-IDF 参考: TF-IDF与余弦相似性的应用（一）：自动提取关键词 Vector Space Model：向量空间模型参考: 向量空间模型(Vec ...

分类：其他好文时间：2019-02-04 09:01:09 阅读次数：158

机器学习入门-文本数据-使用聚类增加文本的标签属性

通过对特征做一个kmeans聚类，将聚类的结果做为文本的标签值，可以使得样本的特征更多我们从sklearn.cluster中导入Kmeans建立模型进行聚类代码：第一步：使用Dataframe格式化数据和使用数据格式化数据第二步：对字符串进行分词和去除停用词，并使用' '.join完成连接 ...

分类：其他好文时间：2019-01-27 00:20:37 阅读次数：362

共86条上一页 1 2 3 4 5 ... 9 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)