K-均值(K-Means)算法用于解决无监督学习中聚类问题,其输入为聚类组数量$K$,以及数据集${x^{(1)},x^{(2)},dots,x^{(m)}}$,其中$x^{(i)}inmathbb{R}^n$(不再添加$x^{(i)}_0=1$这一项)。算法步骤为:首先需要随机选取$K$个聚类中心... ...
分类:
编程语言 时间:
2019-10-01 11:27:26
阅读次数:
82
文本是非结构化的数据,我们无法直接对文本进行聚类处理。在此之前,应该对文本进行一些预处理操作,将文本信息转化成统一的结构化的形式。再对这些结构化的数据进行聚类。文本预处理对于聚类的效果有着重要的作用,预处理的质量高低影响着聚类结果的好坏。对于英文文本的预处理一般包含以下几个步骤:分词去除非英文文本拼... ...
分类:
其他好文 时间:
2019-09-30 12:44:47
阅读次数:
439
一、任务 这次我们将了解在机器学习中支持向量机的使用方法以及一些参数的调整。支持向量机的基本原理就是将低维不可分问题转换为高维可分问题,在前面的博客具体介绍过了,这里就不再介绍了。 首先导入相关标准库: 作为一个例子,首先我们随机生成一些数据,考虑分类任务的简单情况,其中两个类别的点是良好分隔的: ...
分类:
其他好文 时间:
2019-09-28 23:53:53
阅读次数:
229
K-means聚类算法 1、算法思想 首先,我们可以随机选取K个对象作为初始的聚类中心,然后计算每个对象与每一个种子聚类中心的距离,然后分别把这些对象分配给距离对象最近的一个聚类中心,只要对象被分配以后,被分配的对象就和聚类中心组成一个新的聚类,分配后就不能改变了,然后在根据每个聚类的聚类中心和对象 ...
分类:
编程语言 时间:
2019-09-28 14:41:31
阅读次数:
120
原文链接:http://tecdat.cn/?p=7275 确定数据集中最佳的簇数是分区聚类(例如k均值聚类)中的一个基本问题,它要求用户指定要生成的簇数k。 一个简单且流行的解决方案包括检查使用分层聚类生成的树状图,以查看其是否暗示特定数量的聚类。不幸的是,这种方法也是主观的。 我们将介绍用于确定 ...
分类:
编程语言 时间:
2019-09-28 10:48:52
阅读次数:
240
基于DSP的FCM图像分割一、目标利用VisualDSP++ 5.0、仿真器、EBF-561实验平台实现该算法,并通过该聚类算法实现图像的不同区域的聚类结果。 二、实现方案实验原理FCM 聚类算法目标函数为如果 p表示每一个样本x_j的维数0,X={x_1,x_2,…x_j,…x_N}是一个p×N矩... ...
分类:
其他好文 时间:
2019-09-28 10:46:06
阅读次数:
94
原文链接:http://tecdat.cn/?p=7237 在本文中,我们将探讨应用聚类算法(例如k均值和期望最大化)来确定集群的最佳数量时所遇到的问题之一。从数据集本身来看,确定集群数量的最佳值的问题通常不是很清楚。在本文中,我们将介绍几种技术,可用于帮助确定给定数据集的最佳k值。 我们将在当前的 ...
分类:
编程语言 时间:
2019-09-27 12:31:00
阅读次数:
141
在博客园设置 >页首html添加代码 举例输入: 显示为: y=θTx+θTx2y=θTx+θTx2 ∑n=mi=1θTX(i)∑i=1n=mθTX(i) 用? ???μ1,μ2,...,μkμ1,μ2,...,μk 来表示聚类中心, 用 ? ???c(1),c(2),...,c(k)c(1),c( ...
分类:
其他好文 时间:
2019-09-21 17:33:54
阅读次数:
164
文本挖掘 1. 文本挖掘 1.1. 什么是文本挖掘 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息 ...
分类:
其他好文 时间:
2019-09-21 14:34:04
阅读次数:
107
调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 ...
分类:
其他好文 时间:
2019-09-16 00:53:54
阅读次数:
209