参考这里的文档 "es权威指南" 话说这个坑爹的文档是2.x版本的es,英文版本也是,所以就没啥好抱怨的了。 官方教程中有很多坑 例如,需要启动text上的索引。 还有就是get这个是不能带json的,所以很多get的操作其实都是直接用post。 关于集群 所有节点都是平等的,除了主节点。 任何节点 ...
分类:
其他好文 时间:
2018-04-15 12:08:31
阅读次数:
168
基本思想 基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同商品或内容的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行商品推荐。简单的说就是如果A,B两个用户都购买了x、y、z三本图 ...
分类:
编程语言 时间:
2018-04-06 23:41:09
阅读次数:
356
一、前述 谱聚类(spectral clustering)是一种基于图论的聚类方法,主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远(或者相似度较低)的两个点之间的边权重值较低,而距离较近(或者相似度较高)的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图 ...
分类:
其他好文 时间:
2018-04-06 20:21:57
阅读次数:
404
一、前述 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从 ...
分类:
其他好文 时间:
2018-04-06 18:45:40
阅读次数:
221
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为 ...
分类:
其他好文 时间:
2018-04-05 21:01:40
阅读次数:
147
背景 最近安装Jenkins,参照网上的各种资料进行尝试,折腾了好久,但是查找了这么多资料,相似度在90%以上!!!,相同的安装过程,测试了几台机器,未曾成功,不得不感慨自己能力有限,最终慢慢摸索,形成思路,现分享给大家,希望大家在安装的时候少走弯路。 PS:本人很痛恨那种粘贴复制,毫无思考的博主, ...
分类:
其他好文 时间:
2018-04-05 15:51:08
阅读次数:
192
问题描述: 数据包含了一百四十万用户对80万商品的打分。要利用基于物品的协同过滤来计算。如果直接两两计算140万维的向量相似度,肯定不行啊。 问题分析: 每个物品的向量虽然是140万维的,但是其实给一个物品打分的用户其实不多,这个矩阵是非常稀疏的。而且根据长尾问题来说,大部分物品只有很少的用户有过评 ...
分类:
其他好文 时间:
2018-04-04 12:48:00
阅读次数:
162
链接:https://kexue.fm/archives/5253 分布变换 通常我们会拿VAE跟GAN比较,的确,它们两个的目标基本是一致的——希望构建一个从隐变量Z生成目标数据X的模型,但是实现上有所不同。更准确地讲,它们是假设了Z服从某些常见的分布(比如正态分布或均匀分布),然后希望训练一个模 ...
分类:
其他好文 时间:
2018-04-03 22:16:22
阅读次数:
877
首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2,或者在这里找https://dumps.wikimedia.org/zhwiki/。这个文 ...
C#比较两个字符串的相似度【转】 原文地址:http://www.2cto.com/kf/201202/121170.html 我们在做数据系统的时候,经常会用到模糊搜索,但是,数据库提供的模糊搜索并不具备按照相关度进行排序的功能。 现在提供一个比较两个字符串相似度的方法。通过计算出两个字符串的相似 ...