本文主要对 Spark ML库下模型评估指标的讲解,以下代码均以 进行讲解,Spark版本为 。模型评估指标位于包 下。 模型评估指标是指测试集的评估指标,而不是训练集的评估指标 1、回归评估指标 RegressionEvaluator Evaluator for regression, which ...
分类:
其他好文 时间:
2020-03-03 22:38:09
阅读次数:
144
收藏好文: <机器学习>无监督学习算法总结 https://www.cnblogs.com/dynmi/p/11619698.html 有动画演示。 ...
分类:
其他好文 时间:
2020-03-03 20:42:14
阅读次数:
58
直接给代码 1 # -*- coding: UTF-8 -*- 2 from math import log 3 import operator 4 5 """ 6 函数说明:计算给定数据集的经验熵(香农熵) 7 8 Parameters: 9 dataSet - 数据集 10 Returns: 1 ...
分类:
其他好文 时间:
2020-03-03 18:55:57
阅读次数:
69
1、概述 决策树及树集(算法)是用于机器学习任务的分类和回归的流行方法。决策树被广泛使用,因为它们易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互。树集分类算法(例如随机森林和boosting)在分类和回归任务中表现最佳。 spark.ml实现使用连续和分类特 ...
分类:
其他好文 时间:
2020-03-03 17:46:25
阅读次数:
96
一、Jupyter Notebook 简介(百度百科) Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等 二、Jupyter Noteboo ...
最简单的机器学习流程 1读取数据 import pandas as pd data = pd.read_csv 2切分数据与标签 datax = data.iloc[] datay = data.iloc[] 3划分数据集 from sklearn.model_selection import tr ...
分类:
其他好文 时间:
2020-03-03 14:30:31
阅读次数:
97
导读 Epoch,Batchsize,Iterations,这三个都是深度学习训练模型时经常遇到的概念。你一定有过这样的时刻,面对这几个词傻傻分不清楚,这三个概念究竟是什么,它们又有什么区别? 梯度下降法 一切的一切,要从机器学习中的梯度下降法说起。 首先让我们来回顾一下这个常见的不能再常见的算法。 ...
分类:
其他好文 时间:
2020-03-03 12:55:15
阅读次数:
74
聚类 数据是么有标签的,属于无监督学习 hierarchical clustering 层次聚类法 linkage:聚合距离函数 fcluster:层次聚类函数 使用scipy包中的函数 kmeans 均值聚类 使用vq函数将样本数据中的每个样本点分配给一个中心点,形成n个聚类 "vq" white ...
分类:
编程语言 时间:
2020-03-03 12:39:48
阅读次数:
91
数据处理框架 数据处理是一个非常宽泛的概念,数据处理框架在数据架构中,主要是用于数据移动和分析这两大功能当中.对于数据移动,有离线数据移动和实时数据移动,也可以叫做是批量数据移动和流式数据移动.而对于分析这一块,有离线数据分析和实时数据分析,也可以称作是批量数据分析和流式数据分析.离线和实时,批量和 ...
分类:
其他好文 时间:
2020-03-03 11:24:43
阅读次数:
95
1.1引言 我印象最深的一句话就是:机器的分类能力比人强。 我们为什么要学习机器视觉?周志华教授开篇以西瓜的几个属性(比如色泽、根蒂、敲声)来判断一个西瓜是否是好瓜,这些都是靠人的经验完成的。 机器学习即是一门这样的学科,致力于研究通过计算机的手段,利用经验来改善系统自身性能。机器学习的主要研究内容 ...
分类:
其他好文 时间:
2020-03-03 09:15:52
阅读次数:
91