目录 大纲概述 数据集合 数据处理 预训练word2vec模型 一、大纲概述 文本分类这个系列将会有8篇左右文章,从github直接下载代码,从百度云下载训练数据,在pycharm上导入即可使用,包括基于word2vec预训练的文本分类,与及基于近几年的预训练模型(ELMo,BERT等)的文本分类。... ...
                            
                            
                                分类:
其他好文   时间:
2020-07-22 23:29:32   
                                阅读次数:
73
                             
                    
                        
                            
                            
                                    目录 大纲概述 数据集合 数据处理 预训练word2vec模型 一、大纲概述 文本分类这个系列将会有8篇左右文章,从github直接下载代码,从百度云下载训练数据,在pycharm上导入即可使用,包括基于word2vec预训练的文本分类,与及基于近几年的预训练模型(ELMo,BERT等)的文本分类。... ...
                            
                            
                                分类:
其他好文   时间:
2020-07-22 23:29:06   
                                阅读次数:
83
                             
                    
                        
                            
                            
                                    目录 大纲概述 数据集合 数据处理 预训练word2vec模型 一、大纲概述 文本分类这个系列将会有8篇左右文章,从github直接下载代码,从百度云下载训练数据,在pycharm上导入即可使用,包括基于word2vec预训练的文本分类,与及基于近几年的预训练模型(ELMo,BERT等)的文本分类。... ...
                            
                            
                                分类:
其他好文   时间:
2020-07-22 23:28:22   
                                阅读次数:
78
                             
                    
                        
                            
                            
                                    记一下,懒得找了。 语料是NER的古文献语料,参考其他博客代码。 我先将标记的实体提出来,作为自定义字典,加入jieba中,然后再入停用词,再分词,最后训练词向量。效果还不知如何,后续再说。 #加载自定义词典 jieba.load_userdict("cidian.txt") #加载停用词 def  ...
                            
                            
                                分类:
其他好文   时间:
2020-07-16 10:16:54   
                                阅读次数:
68
                             
                    
                        
                            
                            
                                numpy、tensorflow手写SkipGram(没有negative sampling)和cbow: http://www.claudiobellei.com/2018/01/07/backprop-word2vec-python/ 这两种实现都需要动手算梯度,手动实现梯度下降,且不没有使用n ...
                            
                            
                                分类:
其他好文   时间:
2020-07-10 18:47:16   
                                阅读次数:
53
                             
                    
                        
                            
                            
                                启动远程服务 pip install --ignore-installed --upgrade tensorflow==1.10 pip install bert-serving-server pip install bert-serving-client #下载模型 mkdir model cd  ...
                            
                            
                                分类:
其他好文   时间:
2020-07-09 15:21:36   
                                阅读次数:
138
                             
                    
                        
                            
                            
                                    基于流行度 这种算法比较简单,按所有用户的点击量排序呈现给用户,按热度数据推荐给每个用户。弊端就是每个用户看到的都是一样的,无法个性化推荐,微博排行榜就是个比较好的例子。 协同过滤算法 ...
                            
                            
                                分类:
编程语言   时间:
2020-07-08 19:48:24   
                                阅读次数:
48
                             
                    
                        
                            
                            
                                    零、背景介绍 Evaluation methods for unsupervised word embeddings介绍无监督学习场景下的词向量评估方法。词嵌入Embedding 的评估方法主要分两个方向,内在评估和外在评估。 外在评估是以Embedding 向量作为下游任务的特征输入,并从任务的具 ...
                            
                            
                                分类:
其他好文   时间:
2020-07-06 00:55:35   
                                阅读次数:
90
                             
                    
                        
                            
                            
                                    本节目录 常用函数一:词频统计 常用函数二:word2vec 常用函数三:doc2vec 常用函数四:LDA主题分析 常用函数一:词频统计 # -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description ...
                            
                            
                                分类:
编程语言   时间:
2020-07-05 22:59:55   
                                阅读次数:
75
                             
                    
                        
                            
                            
                                实验描述: 本实验的目的是将词向量聚类并有效的表示。将要表示的词是从一个大规模语料中人工抽取出来的,部分所表示的词的示例如下: 家居: 卫生间 灯饰 风格 颇具匠心 设计师 沙发 避风港 枕头 流连忘返 奢华 房产: 朝阳区 物业 房地产 区域 市场 别墅 廉租房 经适房 拆迁 华润置地 步骤1:  ...
                            
                            
                                分类:
其他好文   时间:
2020-07-05 21:03:40   
                                阅读次数:
55