首先,我们定义好一个LSTM网络,然后给出一个句子,每个句子都有很多个词构成,每个词可以用一个词向量表示,这样一句话就可以形成一个序列,我们将这个序列依次传入LSTM,然后就可以得到与序列等长的输出,每个输出都表示的是一种词性,比如名词,动词之类的,还是一种分类问题,每个单词都属于几种词性中的一种。 ...
分类:
其他好文 时间:
2017-12-08 23:12:09
阅读次数:
248
好吧,我承认,我又开始搞word2vec了,好多次了。 上一篇是: http://www.cnblogs.com/charlesblc/p/7615825.html 先在阡陌机器上面训练了: work@cp01-online-strategy-framework tensorflow-word2ve ...
分类:
其他好文 时间:
2017-12-04 20:31:33
阅读次数:
200
> 文本相似度算法## minhash```1. 把文档A分词形成分词向量L2. 使用K个hash函数,然后每个hash将L里面的分词分别进行hash,然后得到K个被hash过的集合3. 分别得到K个集合中的最小hash,然后组成一个长度为K的hash集合4. 最后用Jaccard index求出两... ...
分类:
其他好文 时间:
2017-11-30 23:35:09
阅读次数:
411
词向量:编码词汇级别的信息 url:http://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html?highlight=lookup 词嵌入 词嵌入是稠密向量,每个都代表了一个单词表里面的一个单词。NLP中每个Featu ...
分类:
其他好文 时间:
2017-11-30 19:14:37
阅读次数:
143
引言 在机器学习领域,语言识别和图像识别都比较容易做到。语音识别的输入数据可以是音频频谱序列向量所构成的matrix,图像识别的输入数据是像素点向量构成的矩阵。但是文本是一种抽象的东西,显然不能直接把文本数据喂给机器当做输入,因此这里就需要对文本数据进行处理。 现在,有这么一个有趣的例子,我接下来要 ...
分类:
编程语言 时间:
2017-11-28 01:38:42
阅读次数:
235
http://blog.csdn.net/weixin_36604953/article/details/78324834 想必通过前一篇的介绍,各位小主已经对word2vec以及CBOW和Skip-gram有了比较清晰的了解。在这一篇中,小编带大家走进业内最新潮的文本分类算法,也就是fastTex ...
分类:
其他好文 时间:
2017-11-27 14:18:49
阅读次数:
212
word2Vec 是实现从原始语料中学习字词空间向量的预测模型 使用word2Vec的skip_Gram模型 使用url下载数据集会出现数据集下载不完整,推荐手动下载数据集 网址为http://mattmahoney.net/dc/text8.zip 结果如下 ...
分类:
其他好文 时间:
2017-11-20 14:31:15
阅读次数:
345
最近要开始读论文了,其实自己读论文的能力挺不怎么样的,并且读过就忘记,这实在是让人很不爽的事情。自己分析记不住的原因可以有以下几点: 读论文时理解就不深刻,有时候就是一知半解的 读完之后没有总结,即没有自己概括这篇论文的过程,所以文中一知半解的过程还是忽略了,并且以后再回顾的时候,这篇论文对自己来说 ...
分类:
其他好文 时间:
2017-11-17 21:02:02
阅读次数:
222
前言文本挖掘也是机器学习或者说是人工智能最需要处理的一类信息(其它的诸如语音、图像及视频处理等);随着数字信息化和网络化进程不断深入,用户的在线交流、发布、共享等都被以文字形式记录下来,它们成为分析语言和理解社会的重要素材来源,对于文本的挖掘主要包括文档分..
分类:
其他好文 时间:
2017-11-17 10:43:16
阅读次数:
401
现在趋势是高层用可解释的模型例如 线性模型或者gbdt,下层用带深度的embedding。文本向量化的 word 2 vector 很不错也有很多自己做得模型,关键在于语聊,模型效果差异不大。这里有训练好的模型,30种语言非英语,感觉语料不是很好https://github.com/Kyubyong... ...
分类:
其他好文 时间:
2017-11-10 13:49:48
阅读次数:
237