码迷,mamicode.com
首页 >  
搜索关键字:词向量    ( 222个结果
【NLP-03】Word2Vec
目录 word2vec 简介 CBOW与Skip-Gram模型 优化方法 优点 word2vec API讲解 三个最常见的应用 一句话简述:2013年Google发明,使用跳字节模型(skip-gram)或连续词袋模型(continuous bag of words ,CBOW)训练词向量(初始位o... ...
分类:其他好文   时间:2020-06-16 20:35:06    阅读次数:50
Chat with Milvus #12 :新版本、Postgres向量检索插件、比Faiss好用?
Attendee= 参会者 Attendee A:我现在只是属于试用阶段,还没有经过一个比较完整的使用场景的考验,所以现在主要就是说想学习一下,看看别人都是应用到什么样的场景。我们现在实际用的就是一个句子相似性的应用场景,只做了一个很小的测试,没有遇到很明显的问题。之前觉得检索的准确率不是很高,但是 ...
分类:其他好文   时间:2020-05-23 13:32:04    阅读次数:54
word2vec算法原理理解
word2vec简介 word2vec工具主要包含两个模型:跳字模型(skip gram)和连续词袋模型(CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。word2vec词向量可以较好地表达不同词之间的 ...
分类:编程语言   时间:2020-05-19 18:20:51    阅读次数:58
12.朴素贝叶斯-垃圾邮件分类
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...
分类:其他好文   时间:2020-05-14 13:18:59    阅读次数:66
python读取大词向量文件
[TOC] 0、前言 我们在工作中经常遇到需要将词向量文件读取到内存,但是正常情况下,我们的单词个数都是数十万个,单词的向量都是几百维,所以导致文件比较大,动辄几个G,在读取文件的时候经常会比较慢,有没有什么办法能够加快读取文件的速度呢,接下来,本人将从如下几种方法,进行速度的对比。 1、文件格式 ...
分类:编程语言   时间:2020-05-09 21:13:14    阅读次数:109
Distributed Representations of Words and Phrases and their Compositionality论文阅读及实战
本文讲解 skip-gram 模型以及优化和扩展。主要包括层次 Softmax、负采样、学习短语的表示。 先提一下词向量: 词向量(也叫词嵌入,word embedding),简单地说就是用一个低维向量表示一个词。由于独热编码(one-hot encoding)存在维度灾难,即稀疏性,且无法理解词与 ...
分类:其他好文   时间:2020-04-30 21:26:52    阅读次数:67
seq2seq、attention
seq2seq 是RNN的变种,也叫 Encoder-Decoder 模型。它的输入是一个序列,输出也是一个序列,常用于翻译等场景。 利用两个 RNN,Encoder 负责将输入序列压缩成指定长度的上下文向量c,Decoder 则负责根据上下文向量c生成指定的序列。 上下文向量c也可以参与序列所有时 ...
分类:其他好文   时间:2020-04-28 13:00:54    阅读次数:50
【NLP面试QA】词向量
[TOC] 文本表示哪些方法? 基于one hot、tf idf等的bag of words; 基于词向量的固定表征:word2vec、fastText、glove 基于词向量的动态表征:elmo、GPT、bert one hot存在的问题 one hot表征无法反应词与词之间的相关性问题,即语义鸿 ...
分类:其他好文   时间:2020-04-04 14:34:28    阅读次数:216
文本分类
文本情感分类 文本分类是自然语言处理的一个常见任务,它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题:使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析,并有着广泛的应用。 同搜索近义词和类比词一样,文本分类也属于词嵌入的下游应用。在本节中,我们将应用预训练的词向量和含多个隐 ...
分类:其他好文   时间:2020-02-24 00:27:32    阅读次数:81
使用github--stanfordnlp--glove训练自己的数据词向量
1.准备语料 准备好自己的语料,保存为txt,每行一个句子或一段话,注意要分好词。将分好词的语料保存为×××.txt 2.准备源码 下载地址:https://github.com/stanfordnlp/GloVe,解压后将语料×××.txt添加到GloVe-master文件夹下 3.修改训练语料地 ...
分类:其他好文   时间:2020-02-23 20:16:50    阅读次数:154
222条   上一页 1 2 3 4 5 ... 23 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!