【符号简介】 ———————————————————————— m——编码器的隐层神经元个数 n——输入序列词向量维度 p——解码器隐层神经元个数 q——输出序列词向量维度 v——词汇表大小 ———————————————————————— 【正文开始】 我们之前遇到的较为熟悉的序列问题,主要是利用 ...
分类:
其他好文 时间:
2019-12-30 00:12:17
阅读次数:
85
一、概述 训练语料来源:维基媒体 https://dumps.wikimedia.org/backup index.html 汉语数据 用word2vec训练词向量,并用所学得的词向量,计算 pku_sim_test.txt 文件中每行两个词间的余弦距离作为两词相似度,并输出到文件中。 二、数据准备 ...
分类:
编程语言 时间:
2019-12-27 23:35:37
阅读次数:
278
[toc] 1.简介 word2vec是Google于2013年推出的开源的获取词向量word2vec的工具包。它包括了一组用于word embedding的模型,这些模型通常都是用浅层(两层)神经网络训练词向量。 Word2vec的模型以大规模语料库作为输入,通过神经网络训练到一个向量空间(通常为 ...
分类:
其他好文 时间:
2019-12-22 20:19:52
阅读次数:
136
本文是用机器学习打造聊天机器人系列的最后一篇啦,请耐心看完吧。 本系列文章展示了一个聊天机器人的打造过程,现阶段更高级的聊天机器人会加入更多语料,更多意图模式,用更好的算法,以及其他更多的小技巧,比如: 我们可以结合上一个系列《手把手教你做命名实体识别》中介绍的bert模型,来代替这里的词向量模型, ...
分类:
其他好文 时间:
2019-12-20 18:17:51
阅读次数:
94
使用朴素贝叶斯解决一些现实生活中 的问题时,需要先从文本内容得到字符串列表,然后生成词向量。 准备数据:切分文本 测试算法:使用朴素贝叶斯进行交叉验证 文件解析及完整的垃圾邮件测试函数 ...
分类:
编程语言 时间:
2019-12-15 10:56:42
阅读次数:
112
课程介绍:以人工智能为方向,从自然语言理解、计算机视觉、数据分析等角度,介绍大量有趣的Python案例和应用,探索实现原理、完整动手实践,极大提升人工智能相关的理论基础和技术能力。内容包括图片分类、人脸识别、物体检测等计算机视觉应用,中文分词、词向量、古诗生成等自然语言处理项目,DCGAN、CGAN ...
分类:
其他好文 时间:
2019-12-14 23:11:15
阅读次数:
271
使用小批量数据时,模型容易过拟合,所以需要对全量数据进行处理,我是用的是word2vec训练的词向量. 那么训练好对词向量如何加载呢? ...
分类:
其他好文 时间:
2019-12-05 13:37:43
阅读次数:
171
一、BERT-wwm wwm是Whole Word Masking(对全词进行Mask),它相比于Bert的改进是用Mask标签替换一个完整的词而不是子词,中文和英文不同,英文中最小的Token就是一个单词,而中文中最小的Token却是字,词是由一个或多个字组成,且每个词之间没有明显的分隔,包含更多 ...
分类:
其他好文 时间:
2019-11-13 20:35:40
阅读次数:
268
本文主要阐述了我学习CharCNN过程中的心得体会以及遇到问题的处理和理解。此文基于rasa框架,查阅时需注意。 目录: 一、运用CharCNN的文本意图识别过程 二、参数的调整与对比 三、loss函数的学习 四、bug的处理和学习 一、运用CharCNN的文本意图识别过程 (1)字向量和词向量的差 ...
分类:
其他好文 时间:
2019-11-01 11:16:22
阅读次数:
145
自然语言处理(NLP) NLP中最细粒度的是词语(word),词语组成句子,句子再组成段落、章节和文档。所以NLP的核心问题就是:如何理解word 如何理解word 由于目标是与计算机对接,其核心就是如何给计算机描述一个word,有以下两种描述方式: One-hot Representation D ...
分类:
其他好文 时间:
2019-10-21 10:01:31
阅读次数:
116