一、聚类(无监督)的目标 使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。 二、层次聚类 层次聚类算法实际上分为两类:自上而下或自下而上。自下而上的算法在一开始就将每个数据点视为一个单一的聚类,然后依次合并(或聚集)类,直到所有类合并成一个包含所有数据点的单一聚类。因此,自下而上的 ...
分类:
编程语言 时间:
2019-12-06 19:33:53
阅读次数:
174
更新中 最近更新时间: 2019-12-02 16:11:11 写在前面: 本人是喜欢这个方向的学生一枚,写文的目的意在记录自己所学,梳理自己的思路,同时share给在这个方向上一起努力的同学。写得不够专业的地方望批评指正,欢迎感兴趣的同学一起交流进步。 一、背景 二、基本概念 三、语义相似度计算方 ...
分类:
其他好文 时间:
2019-12-02 17:09:27
阅读次数:
754
一、相关概念 1. 一般我们人区分谁是谁,给物品分类,都是通过各种特征去辨别的,比如黑长直、大白腿、樱桃唇、瓜子脸。王麻子脸上有麻子,隔壁老王和儿子很像,但是儿子下巴涨了一颗痣和他妈一模一样,让你确定这是你儿子。 还有其他物品、什么桌子带腿、镜子反光能在里面倒影出东西,各种各样的特征,我们通过学习、 ...
分类:
编程语言 时间:
2019-12-02 16:37:10
阅读次数:
105
代码:import numpy as npimport pandas as pd# numpy方式data = np.loadtxt('1.txt', delimiter=',') # 读取数据文件X = data[:, 0]Y = data[:, 1]corr = np.corrcoef(X, Y ...
分类:
编程语言 时间:
2019-12-02 13:53:00
阅读次数:
74
聚类算法 概述 无监督问题 手中无标签 聚类 将相似的东西分到一组 难点 如何 评估, 如何 调参 基本概念 要得到的簇的个数 - 需要指定 K 值 质心 - 均值, 即向量各维度取平均 距离的度量 - 常用 欧几里得距离 和 余弦线相似度 ( 先标准化 ) 优化目标 - 需求每个簇中的点, 到质心 ...
分类:
编程语言 时间:
2019-11-25 09:42:34
阅读次数:
54
相关系数度量指的是两个不同事件彼此之间的相互影响程度;而自相关系数度量的是同一事件在两个不同时期之间的相关程度,形象的讲就是度量自己过去的行为对自己现在的影响。 自相关,也称 序列相关。是一个信号于其自身在不同时间点的互相关。非正式地来说,它就是两次观察之间的相似度对它们之间的时间差的函数。它是找出 ...
分类:
其他好文 时间:
2019-11-22 13:37:27
阅读次数:
94
C# Net 比较2个字符串的相似度(使用余弦相似度) 复制代码使用: /// <summary> /// 比较2个字符串的相似度(使用余弦相似度) /// </summary> /// <param name="str1"></param> /// <param name="str2"></par ...
文本分析概念 停用词 语料中大量出现, 无用数据, 如下类似的这种词语 Tf - 词频统计 TF 的计算方式有很多, 最常见的用 某词文章中出现次数 / 文章总词数 idf - 逆文档频率 TF - idf 关键词提取 相似度 分词 语料库 词频 词频向量 整体流程 语料清洗 (去掉停用词, 去掉大 ...
分类:
其他好文 时间:
2019-11-18 16:56:51
阅读次数:
240
前言:让我惊艳的几个库: 1. ultralytics的yolov3,在一众yolov3的pytorch版本实现算法中脱颖而出,收到开发人员的欢迎,比别的库明显好的点在于,与darknet相似度达到极高的水平,支持自定义cfg文件的加载,简直完美。 2. michuanhaohao的reid str ...
分类:
其他好文 时间:
2019-11-10 17:18:50
阅读次数:
1073
一、聚类思想 所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图所示: 根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。 二 ...
分类:
编程语言 时间:
2019-11-09 21:49:33
阅读次数:
276