码迷,mamicode.com
首页 >  
搜索关键字:相似度    ( 854个结果
【转】连续型特征的归一化和离散特征的one-hot编码
1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性 :余弦相似度和皮尔逊相关系数 ...
分类:其他好文   时间:2018-11-19 21:38:22    阅读次数:480
Wordvec_句子相似度
import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word ...
分类:其他好文   时间:2018-11-19 12:31:29    阅读次数:189
分类与监督学习,朴素贝叶斯分类算法
1.简述分类与聚类的联系与区别。 分类技术是一种有指导的学习,即每个训练样本的数据对象已经有类标识,对数据进行判断。 聚类是一种无指导学习。也就是说,聚类是在预先不知道欲划分类的情况下,根据信息相似度原则进行信息聚类的一种方法。 简述什么是监督学习与无监督学习。 监督式学习,能够由训练资料中学到或建 ...
分类:编程语言   时间:2018-11-18 22:37:02    阅读次数:174
Spark Java API 计算 Levenshtein 距离
Spark Java API 计算 Levenshtein 距离 在 "上一篇文章" 中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称。聚类分析需要一个距离,用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标,用Spar ...
分类:编程语言   时间:2018-11-16 22:24:07    阅读次数:212
AI嘻哈写歌词软件总结
(一)软件功能 实现两个功能:根据主题生成歌词和辅助写歌词 根据用户给定的主题生成一段歌词,歌词表达要流畅,语句通顺,押韵 提供相关的词语和句子供用户选择,使用户在帮助下完成歌词创作 核心模型 主题生成首句模型 相似度计算 + 基于SIF加权的word2vec模型 首句生成整段歌词模型 基本的Seq ...
分类:其他好文   时间:2018-11-13 02:56:19    阅读次数:311
机器学习之主题模型(七)
摘要: 主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本的搜索上都起到非常大的作用。 引言: 两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关 ...
分类:其他好文   时间:2018-11-10 17:54:24    阅读次数:330
Author name disambiguation using a graph model with node splitting and merging based on bibliographic information
将人名消歧过程作为一个系统,主要想学习它对消歧过程中的各个阶段的划分,GFAD 是一个面向图的框架,对于元信息缺失,错误信息的存在具有较好的鲁棒性,且不依赖web 环境,也不需要群体数量信息,不需要估计特定的参数或阈值,同时处理同名异名,孤立点问题 ...
分类:其他好文   时间:2018-11-07 23:10:29    阅读次数:292
TF-IDF算法原理
原文:https://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一 ...
分类:编程语言   时间:2018-11-05 20:49:24    阅读次数:150
判断两字符串相似度
/***<h5>功能:判断两字符串相似度(最小为0,最大为1)</h5>**@paramstrOne*@paramstrTwo*@return两字符串相似度(最小为0,最大为1)*/publicstaticdoubleSimlarityString(StringstrOne,StringstrTwo){Set<String>seta=newHashSet<
分类:其他好文   时间:2018-11-03 18:14:36    阅读次数:167
11.1第一次相似度算法测试结果
测试文件在result下面, 1、word2vec还需要丰富训练数据,去噪音,加入博客,新增加预处理的方法。 2、建立评估准确率和召回率的机制 3、去除停用词是不是去多了,增加原文打印的结果 4、原文521条,最终应跑出(521*520)/2对 ...
分类:编程语言   时间:2018-11-01 11:50:18    阅读次数:127
854条   上一页 1 ... 20 21 22 23 24 ... 86 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!