1.理解分类与监督学习、聚类与无监督学习。 (1)简述分类与聚类的联系与区别。 分类就是按照某种标准给对象贴标签,再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。 区别是,分类是事先定义好类别 ,类别数不变 。分类需要由人工标注的分类训练语料训练得到 ...
分类:
编程语言 时间:
2018-11-19 12:31:13
阅读次数:
160
Faster RCNN 和Retinanet在将图像数据输送到网络之前,要对图像数据进行预处理。大致上与 "博客" 提到的相同。 事实上还可以采取第三步,将图片的宽和高扩展为32的整倍数,正如在Retinanet使用的。下面是一个简单的Pytorch数据预处理模块: ...
分类:
其他好文 时间:
2018-11-15 21:08:03
阅读次数:
299
敲《Python机器学习及实践》上的code的时候,对于数据预处理中涉及到的fit_transform()函数和transform()函数之间的区别很模糊,查阅了很多资料,这里整理一下: 涉及到这两个函数的代码如下: 我们先来看一下这两个函数的API以及参数含义:1、fit_transform()函 ...
分类:
编程语言 时间:
2018-11-13 00:13:30
阅读次数:
355
PCA在做数据处理,一般会有一个数据预处理,其中一个目标就是将取数据特征向相关性。 为什么要去特征的相关性? 因为数据如果有相关性,在学习的时候是冗余的,徒增学习成本;所以对于数据处理(也称之为白化,英文有的时候称之为sphering),白化的目的:1.实现特征之间的相关性较低;2.所有的特征具有相... ...
分类:
其他好文 时间:
2018-11-11 23:40:16
阅读次数:
298
<!DOCTYPE html PUBLIC " //W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1 transitional.dtd" sklearn.neighbors.LocalOutlie ...
分类:
编程语言 时间:
2018-11-10 20:11:35
阅读次数:
756
下面是一些关于大数据挖掘的知识点,今天和大家一起来学习一下。数据、信息和知识是广义数据表现的不同形式。主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。数据库中的知识发现处理过程模型有:阶梯处
分类:
其他好文 时间:
2018-11-07 21:39:19
阅读次数:
159
之前有解释预处理部分的函数,不过觉得还不够详细,同时文字解释还不够直观,所以现在想一步步运行下,打印输出 首先读取原始数据,包括相应的注释(即结节标签)【注意】注释文件中的标签是按x,y,z的顺序给的,但是origin以及spacing都是按照z,y,x的顺序,所以要逆序处理一下([:,::-1]) ...
分类:
其他好文 时间:
2018-11-06 13:23:26
阅读次数:
780
title: date: 2018 8 21 15:16:59 tags: 下载题目和数据: "百度网盘" 解决方案 1. 数据预处理: "Preprocess.py" 首先,打开文件UCI.xls,然后读取数据,然后我们发现数据共分为18列, 第一列是目标值,其余17列是特征值。 目标值是字母,不 ...
分类:
其他好文 时间:
2018-10-20 16:26:39
阅读次数:
471
传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。 1. 获取数据 1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,在你学习机器学习的过程中,你可以通过使用这些数据集实现出不同的模型,从而提高你的动手 ...
分类:
其他好文 时间:
2018-10-18 16:47:39
阅读次数:
144
np.pad()常用与深度学习中的数据预处理,可以将numpy数组按指定的方法填充成指定的形状。 对一维数组的填充 结果: 解释: 第一个参数是待填充数组 第二个参数是填充的形状,(2,3)表示前面两个,后面三个 第三个参数是填充的方法 填充方法: constant:连续一样的值填充,有关于其填充值 ...
分类:
其他好文 时间:
2018-10-14 13:58:25
阅读次数:
1058