搜索关键字：相似度，搜索到854个结果！码迷,mamicode.com！

1. 连续型特征的常用的归一化方法、离散型特征one-hot编码的意义 2. 度量特征之间的相关性：余弦相似度和皮尔逊相关系数 ...

分类：其他好文时间：2018-11-19 21:38:22 阅读次数：480

import jiebafrom jieba import analyseimport numpyimport gensimimport codecsimport pandas as pdimport jieba.posseg as pogfrom gensim.models import Word ...

分类：其他好文时间：2018-11-19 12:31:29 阅读次数：189

分类与监督学习，朴素贝叶斯分类算法

1.简述分类与聚类的联系与区别。分类技术是一种有指导的学习，即每个训练样本的数据对象已经有类标识，对数据进行判断。聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的情况下，根据信息相似度原则进行信息聚类的一种方法。简述什么是监督学习与无监督学习。监督式学习，能够由训练资料中学到或建 ...

分类：编程语言时间：2018-11-18 22:37:02 阅读次数：174

Spark Java API 计算 Levenshtein 距离

Spark Java API 计算 Levenshtein 距离在 "上一篇文章" 中，完成了Spark开发环境的搭建，最终的目标是对用户昵称信息做聚类分析，找出违规的昵称。聚类分析需要一个距离，用来衡量两个昵称之间的相似度。这里采用levenshtein距离。现在就来开始第一个小目标，用Spar ...

分类：编程语言时间：2018-11-16 22:24:07 阅读次数：212

AI嘻哈写歌词软件总结

（一）软件功能实现两个功能：根据主题生成歌词和辅助写歌词根据用户给定的主题生成一段歌词，歌词表达要流畅，语句通顺，押韵提供相关的词语和句子供用户选择，使用户在帮助下完成歌词创作核心模型主题生成首句模型相似度计算 + 基于SIF加权的word2vec模型首句生成整段歌词模型基本的Seq ...

分类：其他好文时间：2018-11-13 02:56:19 阅读次数：311

机器学习之主题模型（七）

摘要：主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。主题模型在自然语言和基于文本的搜索上都起到非常大的作用。引言：两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关 ...

分类：其他好文时间：2018-11-10 17:54:24 阅读次数：330

Author name disambiguation using a graph model with node splitting and merging based on bibliographic information

将人名消歧过程作为一个系统，主要想学习它对消歧过程中的各个阶段的划分，GFAD 是一个面向图的框架，对于元信息缺失，错误信息的存在具有较好的鲁棒性，且不依赖web 环境，也不需要群体数量信息，不需要估计特定的参数或阈值，同时处理同名异名，孤立点问题 ...

分类：其他好文时间：2018-11-07 23:10:29 阅读次数：292

TF-IDF算法原理

原文：https://www.cnblogs.com/biyeymyhjob/archive/2012/07/17/2595249.html TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一 ...

分类：编程语言时间：2018-11-05 20:49:24 阅读次数：150

判断两字符串相似度

/***<h5>功能:判断两字符串相似度(最小为0,最大为1)</h5>**@paramstrOne*@paramstrTwo*@return两字符串相似度(最小为0,最大为1)*/publicstaticdoubleSimlarityString(StringstrOne,StringstrTwo){Set<String>seta=newHashSet<

分类：其他好文时间：2018-11-03 18:14:36 阅读次数：167

11.1第一次相似度算法测试结果

测试文件在result下面， 1、word2vec还需要丰富训练数据，去噪音，加入博客，新增加预处理的方法。 2、建立评估准确率和召回率的机制 3、去除停用词是不是去多了，增加原文打印的结果 4、原文521条，最终应跑出(521*520)/2对 ...

分类：编程语言时间：2018-11-01 11:50:18 阅读次数：127

共854条上一页 1 ... 20 21 22 23 24 ... 86 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)