记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def ...
分类:
其他好文 时间:
2020-07-16 10:16:54
阅读次数:
68
numpy、tensorflow手写SkipGram(没有negative sampling)和cbow: http://www.claudiobellei.com/2018/01/07/backprop-word2vec-python/ 这两种实现都需要动手算梯度,手动实现梯度下降,且不没有使用n ...
分类:
其他好文 时间:
2020-07-10 18:47:16
阅读次数:
53
启动远程服务 pip install --ignore-installed --upgrade tensorflow==1.10 pip install bert-serving-server pip install bert-serving-client #下载模型 mkdir model cd ...
分类:
其他好文 时间:
2020-07-09 15:21:36
阅读次数:
138
基于流行度 这种算法比较简单,按所有用户的点击量排序呈现给用户,按热度数据推荐给每个用户。弊端就是每个用户看到的都是一样的,无法个性化推荐,微博排行榜就是个比较好的例子。 协同过滤算法 ...
分类:
编程语言 时间:
2020-07-08 19:48:24
阅读次数:
48
零、背景介绍 Evaluation methods for unsupervised word embeddings介绍无监督学习场景下的词向量评估方法。词嵌入Embedding 的评估方法主要分两个方向,内在评估和外在评估。 外在评估是以Embedding 向量作为下游任务的特征输入,并从任务的具 ...
分类:
其他好文 时间:
2020-07-06 00:55:35
阅读次数:
90
实验描述: 本实验的目的是将词向量聚类并有效的表示。将要表示的词是从一个大规模语料中人工抽取出来的,部分所表示的词的示例如下: 家居: 卫生间 灯饰 风格 颇具匠心 设计师 沙发 避风港 枕头 流连忘返 奢华 房产: 朝阳区 物业 房地产 区域 市场 别墅 廉租房 经适房 拆迁 华润置地 步骤1: ...
分类:
其他好文 时间:
2020-07-05 21:03:40
阅读次数:
55
情感分析:基于循环神经网络 Sentiment Analysis: Using Recurrent Neural Networks 与搜索同义词和类比词类似,文本分类也是单词嵌入的一个下游应用。在本文中,将应用预训练的词向量(glow)和具有多个隐藏层的双向递归神经网络,如图1所示。将使用该模型来判 ...
分类:
其他好文 时间:
2020-07-02 18:13:49
阅读次数:
55
词向量运算(Operations on word vectors) 因为词嵌入的训练是非常耗资源的,所以ML从业职 都是 选择加载训练好 的 词嵌入数据集。 任务: 导入 预训练词向量,使用余弦相似性(cosine similarity)计算相似度 使用词嵌入来解决 “Man is to Woman ...
分类:
其他好文 时间:
2020-06-30 00:16:02
阅读次数:
71
1.word2vec词向量原理解析 word2vec,即词向量,就是一个词用一个向量来表示。是2013年Google提出的。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采 ...
分类:
编程语言 时间:
2020-06-28 15:07:37
阅读次数:
81
不积跬步无以至千里,不积小流无以成江海!每天一点点,以达到积少成多之效! word2vec 概念,数学原理理解 1.数据集 Kaggle上的电影影评数据,包括unlabeledTrainData.tsv,labeledTrainData.tsv,testData.tsv三个文件 Strange th ...
分类:
其他好文 时间:
2020-06-24 23:51:31
阅读次数:
72