这里的答案匹配主要指填空题、问答题类的答案的匹配,也就是字符串的相似度。 网上有很多做法,例如求Levenshtein距离(字符串编辑距离)、汉明距离、莱文斯坦比、Jaro距离和Jaro-Winkler距离等,现在介绍一种可能更适合改卷评分场景的相似度计算方法一、原理篇1.1、核心:根据两字符串的匹 ...
分类:
编程语言 时间:
2020-02-27 19:22:59
阅读次数:
95
python中常用的分析文档、计算词语相似度的包 —— Word2Vec函数;该函数在gensim.models.Word2Vec包内。 分析文本和计算相似度有几个步骤: 导入需要用到的库: # 导入第三包 import jieba import pandas as pd import gensim ...
分类:
其他好文 时间:
2020-02-22 16:05:44
阅读次数:
135
为什么要平稳? 研究时间序列的最终目的是,预测未来。但是未来是不可知的,我们拥有的数据都是历史,因此只能用历史数据来预测未来。但是,如果过去的数据与未来的数据没有某种“相似度”,那这种预测就毫无道理了。平稳性就是保证这种过去与未来的相似性,如果数据是平稳的,那么可以认为过去的数据表现出的某些性质,未 ...
分类:
其他好文 时间:
2020-02-22 14:09:27
阅读次数:
62
Word2vec "1.词嵌入基础" "2.PTB数据集" "3.Skip Gram" "4.负采样近似" "5.训练模型" 1.词嵌入基础 使用 one hot 向量表示单词,虽然它们构造起来很容易,但通常并不是一个好选择。一个主要的原因是,one hot 词向量无法准确表达不同词之间的相似度,如 ...
分类:
其他好文 时间:
2020-02-21 20:22:27
阅读次数:
140
基于物品的协同过滤算法(ItemCF)的基本思想是:给用户推荐那些和他们之前喜欢的物品相似的物品。 比如,该算法会因为你购买过《Java从入门到精通》而给你推荐《Java并发编程实战》。不过,基于物品的协同过滤算法并不利用物品的内容属性计算物品之间的相似度,二是通过分析用户的行为数据计算物品之间的相 ...
分类:
编程语言 时间:
2020-02-18 23:20:45
阅读次数:
162
基于物品的推荐算法以及流程(以电商网站为基准) 例如,用户喜欢百雀羚的爽肤水,那么系统将会寻找与爽肤水、百雀羚类似的物品推荐给用户。 算法流程: 1.构建用户–>物品的倒排; 2.构建物品与物品的同现矩阵; 3.计算物品之间的相似度,即计算相似矩阵; 4.根据用户的历史记录,给用户推荐物品; 数据库 ...
分类:
编程语言 时间:
2020-02-18 18:28:47
阅读次数:
107
做软件开发岗位的朋友们都知道,现如今主流的编程语言是Java,尤其是提到开源,更撇不开Java的身影了,升职加薪年入百万之必备。但是,很多.NET程序员也觉得很郁闷,想必微软这棵大树,不少开发人员都曾爬过,但也一次次被伤害过,以至于很多城市的就业环境中,.NET工程师岗位奇缺。 .NET和Java谁 ...
分类:
Web程序 时间:
2020-02-18 09:19:14
阅读次数:
107
标签在数据分析中起到很重要的作用,给用户打标签,给商品打标签,给新闻打标签,好的标签可以为我们后期分析数据时提供很大的便利。有时我们需要计算两个对象之间标签的相似度。目前学习的算法是levenshtein distance 编辑距离算法。 实例: 标签1:中国|杭州|商业 标签2:商业|经济|金融 ...
分类:
编程语言 时间:
2020-02-17 23:53:16
阅读次数:
203
句子相似度可用于实现自动问答系统,本文将带你快速理解并上手实现一种计算句子相似度的算法。 ...
分类:
其他好文 时间:
2020-02-17 14:17:18
阅读次数:
85
在做自然语言处理的过程中,现在智能对话比较火,例如智能客服,智能家电,智能音箱等,我们需要获取用户说话的意图,方便做出正确的回答,这里面就涉及到句子相似度计算的问题,那么本节就来了解一下怎么样来用 Python 实现句子相似度的计算。 句子相似度常用的几种方法: 1、编辑距离 2、杰卡德系数计算 3 ...
分类:
编程语言 时间:
2020-02-15 11:38:38
阅读次数:
97