1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性 :余弦相似度和皮尔逊相关系数 ...
分类:
其他好文 时间:
2018-11-19 21:38:22
阅读次数:
480
import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word ...
分类:
其他好文 时间:
2018-11-19 12:31:29
阅读次数:
189
1.简述分类与聚类的联系与区别。 分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,对数据进行判断。 聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。 简述什么是监督学习与无监督学习。 监督式学习,能够由训练资料中学到或建 ...
分类:
编程语言 时间:
2018-11-18 22:37:02
阅读次数:
174
Spark Java API 计算 Levenshtein 距离 在 "上一篇文章" 中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称。聚类分析需要一个距离,用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标,用Spar ...
分类:
编程语言 时间:
2018-11-16 22:24:07
阅读次数:
212
(一)软件功能 实现两个功能:根据主题生成歌词和辅助写歌词 根据用户给定的主题生成一段歌词,歌词表达要流畅,语句通顺,押韵 提供相关的词语和句子供用户选择,使用户在帮助下完成歌词创作 核心模型 主题生成首句模型 相似度计算 + 基于SIF加权的word2vec模型 首句生成整段歌词模型 基本的Seq ...
分类:
其他好文 时间:
2018-11-13 02:56:19
阅读次数:
311
摘要: 主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本的搜索上都起到非常大的作用。 引言: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关 ...
分类:
其他好文 时间:
2018-11-10 17:54:24
阅读次数:
330
将人名消歧过程作为一个系统,主要想学习它对消歧过程中的各个阶段的划分,GFAD 是一个面向图的框架,对于元信息缺失,错误信息的存在具有较好的鲁棒性,且不依赖web 环境,也不需要群体数量信息,不需要估计特定的参数或阈值,同时处理同名异名,孤立点问题 ...
分类:
其他好文 时间:
2018-11-07 23:10:29
阅读次数:
292
原文:https://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一 ...
分类:
编程语言 时间:
2018-11-05 20:49:24
阅读次数:
150
/***<h5>功能:判断两字符串相似度(最小为0,最大为1)</h5>**@paramstrOne*@paramstrTwo*@return两字符串相似度(最小为0,最大为1)*/publicstaticdoubleSimlarityString(StringstrOne,StringstrTwo){Set<String>seta=newHashSet<
分类:
其他好文 时间:
2018-11-03 18:14:36
阅读次数:
167
测试文件在result下面, 1、word2vec还需要丰富训练数据,去噪音,加入博客,新增加预处理的方法。 2、建立评估准确率和召回率的机制 3、去除停用词是不是去多了,增加原文打印的结果 4、原文521条,最终应跑出(521*520)/2对 ...
分类:
编程语言 时间:
2018-11-01 11:50:18
阅读次数:
127