今天主要学习了实验 7 Spark 机器学习库 MLlib 编程实践, 主要代码: import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Ve ...
分类:
其他好文 时间:
2020-02-10 16:34:34
阅读次数:
132
简介 @ "维基百科" 本文内容皆源自 "Andrew Ng" 目的 1.实现数据压缩 2.实现数据在2D或3D中可视化 算法 "PCA(主成分分析)" 步骤 1.数据预处理 采用归一化方法,是的均值为0,方差为1。 步骤,1.均值为0 2.方差为1 $x_j^{(i)}={x_j \mu}\fra ...
分类:
其他好文 时间:
2020-02-08 09:33:05
阅读次数:
74
1.无监督学习 无监督学习和监督学习是机器学习的两个方向,监督学习主要适用于已经标注好的数据集(如mnist分类问题),无监督学习则是希望计算机完成复杂的标注任务,简单的解释就是——教机器自己学习,它常见的应用场景有:从庞大的样本集合中选出一些具有代表性的加以标注用于分类器的训练、将所有样本自动分为 ...
分类:
Web程序 时间:
2020-02-06 23:21:48
阅读次数:
151
Apache Spark 是一个快速的、多用途的集群计算系统。在 Java,Scala,Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处... ...
分类:
其他好文 时间:
2020-02-06 12:48:11
阅读次数:
76
1. Data Augmentation:对数据进行增强,即对已有的数据进行翻转、平移或旋转等,得到更多的数据,避免过拟合,使得神经网络具有更好的泛化效果 ①基本的操作: 随机组合: (1)翻转 (2)旋转 (3)拉伸 (4)剪切 (5)镜头扭曲 ②更复杂的操作: (1)应用PCA (2)色彩偏移 ...
分类:
其他好文 时间:
2020-02-05 23:04:50
阅读次数:
68
import numpy as npimport operatorfrom os import listdirdef CerateDataSet(): group = np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B ...
分类:
编程语言 时间:
2020-02-04 15:40:01
阅读次数:
74
KNN算法介绍 KNN算法(K NearestNeighor Algorithm) 是一种最简单的分类算法。 算法核心: 假设在一个二维坐标平面中已经有了$n$个点,每个点的颜色已知,现在给定查询点$p$的坐标$(x,y)$,判断$p$的颜色。 对于已知的$n$个点,计算每个点和点$p$的欧几里得距 ...
分类:
编程语言 时间:
2020-02-03 12:07:15
阅读次数:
80
2019 10 16 14:46:06 仅供学习使用 aijiaoai 人工智能主要应用 1. 图像识别 识别图片中的内容、对象。 KNN 卷积神经网络 2. 情感分析 分析文本中包含的 文本,是正面的、负面的、中性的。 文本的表示:词向量、TFIDF 文本预处理、清洗 分类算法,逻辑回归、决策树、 ...
分类:
其他好文 时间:
2020-02-02 21:39:26
阅读次数:
124
recent这个模块很有趣,善加利用可充分保证您服务器安全。 设定常用参数: –name #设定列表名称,默认DEFAULT。–rsource #源地址,此为默认。–rdest #目的地址–seconds #指定时间内–hitcount #命中次数–set #将地址添加进列表,并更新信息,包含地址加 ...
分类:
其他好文 时间:
2020-02-02 15:45:21
阅读次数:
101
# 介绍 k近邻算法(KNN)属于监督学习的分类算法,通过测量不同特征值之间的距离进行分类,算法过程如下 * 计算数据点与已知数据集中每个点的距离 * 对距离从小到大进行排序 * 选取前k个距离值 * 确定前k个距离值所在类别的出现的概率 * 将前k个点出现频率最高的类别作为当前数据的预测分类 主要... ...
分类:
编程语言 时间:
2020-02-01 00:48:24
阅读次数:
87