码迷,mamicode.com
首页 > 其他好文 > 详细

word2vec

时间:2018-08-21 10:55:00      阅读:117      评论:0      收藏:0      [点我收藏+]

标签:log   csdn   写真   .net   blog   fan   聚类   工具   需要   

word2vec的学习
python的几个扩展工具:
1. numpy
2. scipy
3. gensim


 

如何对新闻的关键词进行聚类?比如说,给你一个关键词“苍井空”,你怎么把“女优”,“写真集”等关联性极高的关键词找到?

想法1: 用新闻ID向量表示某个关键词,如:苍井空 (新闻ID1,新闻ID2,…)

可行性: 新闻数较小时,可以用kmeans等方法进行聚类; 但新闻数高达10万时,每个关键词则需要10万维的向量表示,计算难度太大。

解决方法:google的一个开源工具“word2vec”,可通过输入一个词的集合,计算出词与词之间的距离,通过距离进行聚类。

word2vec

标签:log   csdn   写真   .net   blog   fan   聚类   工具   需要   

原文地址:https://www.cnblogs.com/twomeng/p/9509391.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!