搜索关键字：词向量，搜索到222个结果！码迷,mamicode.com！

【NLP-03】Word2Vec

目录 word2vec 简介 CBOW与Skip-Gram模型优化方法优点 word2vec API讲解三个最常见的应用一句话简述：2013年Google发明，使用跳字节模型（skip-gram）或连续词袋模型（continuous bag of words ，CBOW）训练词向量（初始位o... ...

分类：其他好文时间：2020-06-16 20:35:06 阅读次数：50

Chat with Milvus #12 ：新版本、Postgres向量检索插件、比Faiss好用？

Attendee= 参会者 Attendee A：我现在只是属于试用阶段，还没有经过一个比较完整的使用场景的考验，所以现在主要就是说想学习一下，看看别人都是应用到什么样的场景。我们现在实际用的就是一个句子相似性的应用场景，只做了一个很小的测试，没有遇到很明显的问题。之前觉得检索的准确率不是很高，但是 ...

分类：其他好文时间：2020-05-23 13:32:04 阅读次数：54

word2vec算法原理理解

word2vec简介 word2vec工具主要包含两个模型：跳字模型（skip gram）和连续词袋模型（CBOW），以及两种高效训练的方法：负采样（negative sampling）和层序softmax（hierarchical softmax）。word2vec词向量可以较好地表达不同词之间的 ...

分类：编程语言时间：2020-05-19 18:20:51 阅读次数：58

12.朴素贝叶斯-垃圾邮件分类

1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl ...

分类：其他好文时间：2020-05-14 13:18:59 阅读次数：66

python读取大词向量文件

[TOC] 0、前言我们在工作中经常遇到需要将词向量文件读取到内存，但是正常情况下，我们的单词个数都是数十万个，单词的向量都是几百维，所以导致文件比较大，动辄几个G，在读取文件的时候经常会比较慢，有没有什么办法能够加快读取文件的速度呢，接下来，本人将从如下几种方法，进行速度的对比。 1、文件格式 ...

分类：编程语言时间：2020-05-09 21:13:14 阅读次数：109

Distributed Representations of Words and Phrases and their Compositionality论文阅读及实战

本文讲解 skip-gram 模型以及优化和扩展。主要包括层次 Softmax、负采样、学习短语的表示。先提一下词向量：词向量（也叫词嵌入，word embedding），简单地说就是用一个低维向量表示一个词。由于独热编码（one-hot encoding）存在维度灾难，即稀疏性，且无法理解词与 ...

分类：其他好文时间：2020-04-30 21:26:52 阅读次数：67

seq2seq、attention

seq2seq 是RNN的变种，也叫 Encoder-Decoder 模型。它的输入是一个序列，输出也是一个序列，常用于翻译等场景。利用两个 RNN，Encoder 负责将输入序列压缩成指定长度的上下文向量c，Decoder 则负责根据上下文向量c生成指定的序列。上下文向量c也可以参与序列所有时 ...

分类：其他好文时间：2020-04-28 13:00:54 阅读次数：50

【NLP面试QA】词向量

[TOC] 文本表示哪些方法？基于one hot、tf idf等的bag of words；基于词向量的固定表征：word2vec、fastText、glove 基于词向量的动态表征：elmo、GPT、bert one hot存在的问题 one hot表征无法反应词与词之间的相关性问题，即语义鸿 ...

分类：其他好文时间：2020-04-04 14:34:28 阅读次数：216

文本分类

文本情感分类文本分类是自然语言处理的一个常见任务，它把一段不定长的文本序列变换为文本的类别。本节关注它的一个子问题：使用文本情感分类来分析文本作者的情绪。这个问题也叫情感分析，并有着广泛的应用。同搜索近义词和类比词一样，文本分类也属于词嵌入的下游应用。在本节中，我们将应用预训练的词向量和含多个隐 ...

分类：其他好文时间：2020-02-24 00:27:32 阅读次数：81

使用github--stanfordnlp--glove训练自己的数据词向量

1.准备语料准备好自己的语料，保存为txt，每行一个句子或一段话，注意要分好词。将分好词的语料保存为×××.txt 2.准备源码下载地址：https://github.com/stanfordnlp/GloVe，解压后将语料×××.txt添加到GloVe-master文件夹下 3.修改训练语料地 ...

分类：其他好文时间：2020-02-23 20:16:50 阅读次数：154

共222条上一页 1 2 3 4 5 ... 23 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)