RNN(Recurrent Netural Network)循环神经网络,用来处理和预测序列数据,在语音识别,语言描述,翻译等领域有很好的运用。 传统神经网络结构如CNN是假设所有的input之间是相互独立的,output之间也相互独立,但实际中会存在由前面几个字去推测后面的词,这个时候CNN的假设 ...
分类:
其他好文 时间:
2018-08-07 20:46:50
阅读次数:
195
cbow和skip-gram都是在word2vec中用于将文本进行向量表示的实现方法,具体的算法实现细节可以去看word2vec的原理介绍文章。我们这里大体讲下两者的区别,尤其注意在使用当中的不同特点。 在cbow方法中,是用周围词预测中心词,从而利用中心词的预测结果情况,使用GradientDes ...
分类:
其他好文 时间:
2018-08-03 14:17:19
阅读次数:
351
文本 文本预处理 1. 中文分词:分词工具: "jieba" / "snownlp" /...,是否需要去除停用词? 2. word embedding:工具:word2vec/ doc2vec/ TF IDF/ CountVectorizer/ HashVectorizer/ ....作为模型输入 ...
分类:
其他好文 时间:
2018-07-23 19:57:03
阅读次数:
182
1 Word meaning 1. 1 word meaning的两种定义 Definition meaning:单词的含义指代了客观存在的具体事物,如眼镜。 Distributional similarity meaning:上下文代表了单词的含义,如下: Distributional simil ...
分类:
其他好文 时间:
2018-07-23 00:56:16
阅读次数:
166
主要参考: word2vec 中的数学原理详解 自己动手写 word2vec ...
分类:
编程语言 时间:
2018-07-18 01:12:29
阅读次数:
187
主要参考: word2vec 中的数学原理详解 自己动手写 word2vec 编码的话,根是不记录在编码中的 这一篇主要讲的就是霍夫曼树(最优二叉树)和编码。 参考 快速画出哈夫曼树 / 霍夫曼树 / 最优树 了解其构成。 哈夫曼树及 python 实现 python 代码 构建霍夫曼树 ,获得霍夫 ...
分类:
其他好文 时间:
2018-07-18 00:33:27
阅读次数:
300
总览 用途:文本分类 优点:在精度上与深度学习的方法媲美,但更高效,速度快多个数量级。 模型结构 fastText的结构:输入为一个句子的N个词(ngram)的向量表示,训练之前此向量可利用随机数进行初始化,随后将这些词向量加权平均得到对应文本的向量表示;输出为文本对应的标签。此模型结构与CBOW很 ...
分类:
其他好文 时间:
2018-07-12 20:15:49
阅读次数:
168
原文地址:https://www.jianshu.com/p/b2da4d94a122 一、概述 本文主要是从deep learning for nlp课程的讲义中学习、总结google word2vector的原理和词向量的训练方法。文中提到的模型结构和word2vector的代码实现并不一致,但 ...
分类:
其他好文 时间:
2018-07-12 01:00:57
阅读次数:
220
word2vec:低维向量的直接学习 接下来,我们来看下Deep Learning是如何从原始的语料库中直接学习到低维词向量的表达。这也是我们学习的第一个Deep NLP模型——word2vec模型。 Assignment ...
分类:
其他好文 时间:
2018-07-10 23:43:16
阅读次数:
270
tf.nn.nce_loss是word2vec的skip-gram模型的负例采样方式的函数,下面分析其源代码。 1 上下文代码 其中, train_inputs中的就是中心词,train_label中的就是语料库中该中心词在滑动窗口内的上下文词。 所以,train_inputs中会有连续n-1(n为 ...
分类:
其他好文 时间:
2018-07-09 17:17:32
阅读次数:
621