第六届"泰迪杯"参赛经历总结 Part 1 赛题 点击Part 1 赛题进入题目网站 Part 2 C题参考与建议 智能阅读模型的构建 —— 一份阅读建议 一、 赛题 1、 赛题 (1) 主题:以文本输入作为知识基础的智能问答模型 (2) 学名:篇章排序、阅读理解 (3) 数据:给出问题文本,判断材 ...
分类:
其他好文 时间:
2018-04-15 13:37:32
阅读次数:
395
基于 word2vec 和 CNN 的文本分类 :综述 & 实践 https://zhuanlan.zhihu.com/p/29076736 文本分类的算法 一、决策树(Decision Trees) 二、人工神经网络 准确度高 并行分布处理能力强,分布存储及学习能力强,鲁棒性好 联想记忆 神经网络 ...
分类:
其他好文 时间:
2018-04-08 22:40:25
阅读次数:
221
简介 GloVe是一种非常简单快速的训练词向量的算法。与复杂的word2vec相比,其是一个log双线性模型,仅通过一个简单的损失函数就能够得到很好的结果。 (1)J=∑i,jNf(Xi,j)(viTvj+bi+bj?log(Xi,j))2 其中,vi和vj是i和j的词向量,bi和bj是两个偏差项, ...
分类:
其他好文 时间:
2018-04-07 13:55:56
阅读次数:
734
首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文 ...
之前以为直接使用 就可以完成学习,后面发现和paper的意思不匹配,这一层是需要单独获取的。 先附上可以参考的链接: 1. "LSTM里Embedding Layer的作用是什么" 2. "http://www.cnblogs.com/iloveai/p/word2vec.html" 3. "原文" ...
分类:
其他好文 时间:
2018-04-01 16:03:26
阅读次数:
433
CountVectorizer和Tf-idfVectorizer构建词向量都是通过构建字典的方式,比如在情感分析问题中,我需要把每一个句子(评论)转化为词向量,这两种方法是如何构建的呢?拿CountVectorizer来说,首先构建出一个字典,字典包含了所有样本出现的词汇,每一个词汇对应着它出现的顺 ...
分类:
其他好文 时间:
2018-03-31 00:50:30
阅读次数:
4017
一、音乐推荐 1、传统的方式:基于suprise 协同过滤(各种版本)、SVD、矩阵分解 2、基于word2vec,用每个歌单中的song_id,作为一个样本,训练song2vec向量,进而求取相似歌曲, 用户兴趣推荐,根据用户喜欢的歌曲,将时间轴权重,歌曲热度权重叠加到song2vec相似歌曲的相 ...
分类:
其他好文 时间:
2018-03-26 19:17:25
阅读次数:
168
用gensim函数库训练Word2Vec模型有很多配置参数。这里对gensim文档的Word2Vec函数的参数说明进行翻译。 class gensim.models.word2vec.Word2Vec(sentences=None,size=100,alpha=0.025,window=5, min ...
分类:
编程语言 时间:
2018-03-20 12:49:07
阅读次数:
176
1、描述 Huffman编码,将字符串利用C++编码输出该字符串的Huffman编码。 Huffman树是一种特殊结构的二叉树,由Huffman树设计的二进制前缀编码,也称为Huffman编码在通信领域有着广泛的应用。在word2vec模型中,在构建层次Softmax的过程中,也使用到了Huffma ...
分类:
编程语言 时间:
2018-02-26 13:19:32
阅读次数:
165