码迷,mamicode.com
首页 > 其他好文 > 详细

nlp学习杂记

时间:2019-10-20 19:59:29      阅读:36      评论:0      收藏:0      [点我收藏+]

标签:token   nbsp   概率   词袋   下标   bow   font   关系   常见   

什么是 token embedding?

输入一个word,在字典里查找得到它对应的下标就是token,然后用该数字下标去lookup表查找得到该词对应的词向量(词嵌入)就是embedding

 

词袋模型(Bag of Words, BOW)

词袋模型就是将句子分词,然后对每个词进行编码,常见的有one-hot、TF-IDF、Huffman编码,假设词与词之间没有先后关系

 

词向量(Word Embedding)模型

词向量模型是用词向量在空间坐标中定位,然后计算cos距离可以判断词于词之间的相似性。

 

什么是cbow

输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量,即先验概率。

 

什么是skip-gram

Skip-Gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量,即后验概率。

nlp学习杂记

标签:token   nbsp   概率   词袋   下标   bow   font   关系   常见   

原文地址:https://www.cnblogs.com/duoba/p/11708455.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有 京ICP备13008772号-2
迷上了代码!