码迷,mamicode.com
首页 > 其他好文 > 详细

NLP知识点汇总(一)

时间:2020-03-30 23:45:00      阅读:180      评论:0      收藏:0      [点我收藏+]

标签:解决   mos   pre   bsp   如何   get   里程碑   男人   imp   

开篇:

       从事NLP方向的工作也有一年了,前前后后也学到了很多东西,但是就是没有整理过,现在从原理和应用的方面将所有知识总结方便复习管理。

 

一、word2vec

   word2vec可以说得上是NLP的一个里程碑。将每个单词离散表示,既解决了one-hot的巨大维度,也解决了one-hot的部分语义问题。论文只是说明了有cbow和skim两个原理,分别对应着窗口大小内,环境词对中间词的预测与中间词对环境词的预测。算法角度说明的比较少,想从论文彻底了解比较困难。现有一位大神研究gensim的word2vec源码,从数学原理,有一篇博客解释的很好。现转载如下:

     转载: https://www.cnblogs.com/peghoty/p/3857839.html 

 

技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片技术图片

 

 

 

 

技术图片技术图片

 

 

如何使用?

 

from gensim.models.word2vec import Word2Vec 

sentences = [[A1A2],[],[],....] 
model= Word2Vec()
model.build_vocab(sentences)
model.train(sentences,total_examples = model.corpus_count,epochs = model.iter)

保存:

model.save(/tmp/MyModel)

追加加训练:

model = gensim.models.Word2Vec.load(/tmp/mymodel)
model.train(more_sentences)

加载:

model = gensim.models.Word2Vec.load(/tmp/mymodel)

获取词向量

print(model [man])
print(type(model [man]))

输出:

[0.14116223 0.05663395 0.01500377 -0.03592452 ...] 
numpy.ndarray
计算一个词的最近似的词,倒排序 model.most_similar([
男人]) 输出:[(,0.7664012908935547), ( 男孩,0.6824870109558105), ( 青少年,0.6586930155754089), ( 女孩,0.5921714305877686), ( 强盗,0.5585119128227234), ( ,0.5489763021469116), (,0.5420035719871521), ( ,0.5342026352882385), ( 绅士,0.5337990522384644), ( 摩托车手,0.5336882472038269)] 计算两词之间的余弦相似度 word2vec一个很大的亮点:支持词语的加减运算(实际中可能只有少数例子比较符合) model.most_similar(positive = [woman,king],negative = [man],topn = 2) 输出:[(王后,0.7118192911148071),(君主,0.6189675331115723)] --- model.similarity(女人, 男人) 输出:0.7664012234410319 计算两个集合之间的余弦似度 当出现某个词语不在这个训练集合中的时候,会报错! list1 = [学校] list2 = [] list_sim1 = model.n_similarity(list1,list2) print(list_sim1) 输出:0.772446878519

 

NLP知识点汇总(一)

标签:解决   mos   pre   bsp   如何   get   里程碑   男人   imp   

原文地址:https://www.cnblogs.com/dhName/p/12601726.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!