import numpy as np 为提高运算效率,ndarray数组值的类型默认相同,创建时自动指定默认数据类型(内存占用最大的值类型) 默认浮点类型(float) nparray索引和切片 // Numpy数据存取 numpy提供了便捷的内部文件存取,将数据存为np专用的npy(二进制格式)或 ...
分类:
其他好文 时间:
2018-09-07 15:04:22
阅读次数:
700
特征分类 对特征进行分类,对于不同的特征应该有不同的处理方法。 根据不同的分类方法,可以将特征分为 (1)Low level特征和High level特征。 Low level特征——较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预。 例如文本特征中的词向量特征,图像特征中的像素 ...
分类:
其他好文 时间:
2018-09-05 21:46:36
阅读次数:
228
本文LDA指线性判别模型,并非自然语言处理中的主题模型LDA。 1.LDA简介 LDA在模式识别领域(比如人脸识别,舰艇识别等图形图像识别领域)中有非常广泛的应用。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术 ...
分类:
其他好文 时间:
2018-09-05 19:55:23
阅读次数:
973
为此我们需要一种应对于海量数据场景的去重方案,经过研究发现有种叫 local sensitive hash 局部敏感哈希 的东西,据说这玩意可以把文档降维到hash数字,数字两两计算运算量要小很多。查找很多文档后看到google对于网页去重使用的是simhash,他们每天需要处理的文档在亿级别,大大 ...
分类:
编程语言 时间:
2018-09-05 17:28:37
阅读次数:
1001
五、高维数据映射为低维数据 换一个坐标轴。在新的坐标轴里面表示原来高维的数据。 低维 反向 映射为高维数据 PCA.py 六、scikit-learn 中的 PCA 七、试手MNIST数据集 通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结 ...
分类:
其他好文 时间:
2018-08-30 22:43:09
阅读次数:
254
自编码器是一种有效的提取特征的方法,与PCA无监督降维不同,它实际上是独立于有监督、无监督算法外的自监督算法,Hinton大牛主要就是搞这块的,比如被他当做宝贝的玻尔兹曼机... 下面这个PPT主要讲一下自编码器的原理及其变种。 ...
分类:
Web程序 时间:
2018-08-28 14:24:36
阅读次数:
570
ss 1010 YJJ's Salesman(dp,树状数组,降维,离散化) 将二维降成一维,一般就是按照第一维度排好序,然后扫描点,此时某点之前扫描过的点的第一维度不会大于该点的第一维!这样就不用考虑第一维度了!!! #include<bits/stdc++.h> #define per(i,a, ...
分类:
其他好文 时间:
2018-08-26 01:12:44
阅读次数:
267
pca是一种黑箱子式的降维方式,通过映射,希望投影后的数据尽可能的分散, 因此要保证映射后的方差尽可能大,下一个映射的方向与当前映射方向正交 pca的步骤: 第一步: 首先要对当前数据(去均值)求协方差矩阵,协方差矩阵= 数据*数据的转置/(m-1) m表示的列数,对角线上表示的是方差,其他位置表示 ...
分类:
编程语言 时间:
2018-08-24 22:53:42
阅读次数:
245
原文出处:机器学习项目流程 原文作者:wxquare 1. 理解实际问题,抽象为机器学习能处理的数学问题 理解实际业务场景问题是机器学习的第一步,机器学习中特征工程和模型训练都是非常费时的,深入理解要处理的问题,能避免走很多弯路。 2. 获取数据 获取数据包括获取原始数据以及从原始数据中经过特征工程 ...
分类:
其他好文 时间:
2018-08-24 21:20:07
阅读次数:
127
一:机器学习之间的关系 1.人工智能,机器学习,深度学习 下面是一个历史发展,也是一个包含的关系。 2.人工智能 像人一样思考,像人一样行动。、 下面是所包含的部分。 3.机器学习 重要的是机器使用学习,得到下一步运算。 二:机器学习的领域 1.领域 分类,回归,排序,聚类,降维 2.监督学习,非监 ...
分类:
其他好文 时间:
2018-08-23 00:37:18
阅读次数:
238