Python在机器学习方面一个非常强力的模块---scikit-learn模块,它作为数据挖掘和数据分析方面的一个简单而有效的工具,主要包括6大功能:分类(Classification),回归(Regression),聚类(Clustering),降维(Dimensionality Reductio ...
分类:
编程语言 时间:
2018-02-20 14:44:16
阅读次数:
258
模型评估与参数调优实战基于流水线的工作流一个方便使用的工具:scikit-learn中的Pipline类。它使得我们可以拟合出包含任意多个处理步骤的模型,并将模型用于新数据的预测。加载威斯康星乳腺癌数据集1.使用pandas从UCI网站直接读取数据集import pandas as pddf=pd.... ...
分类:
编程语言 时间:
2018-02-13 10:36:16
阅读次数:
427
欢迎大家前往云+社区,获取更多腾讯海量技术实践干货哦~ 文本数据需要特殊处理,然后才能开始将其用于预测建模。 我们需要解析文本,以删除被称为标记化的单词。然后,这些词还需要被编码为整型或浮点型,以用作机器学习算法的输入,这一过程称为特征提取(或矢量化)。 scikit-learn 库提供易于使用的工 ...
分类:
其他好文 时间:
2018-02-12 18:43:33
阅读次数:
193
这是机器学习系列的第一篇文章。 本文将使用Python及scikit-learn的线性回归预测Google的股票走势。请千万别期望这个示例能够让你成为股票高手。下面按逐步介绍如何进行实践。 准备数据 本文使用的数据来自www.quandl.com网站。使用Python相应的quandl库就可以通过简 ...
分类:
其他好文 时间:
2018-02-11 12:27:27
阅读次数:
288
下载地址:网盘下载 内容简介 · · · · · · 本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下最流行的机器学习、数据挖掘与自然语言处理工具,如Scikitlearn、N ...
分类:
编程语言 时间:
2018-02-05 23:31:03
阅读次数:
297
基本步骤: 1、训练素材分类: 我是参考官方的目录结构: 每个目录中放对应的文本,一个txt文件一篇对应的文章:就像下面这样 需要注意的是所有素材比例请保持在相同的比例(根据训练结果酌情调整、不可比例过于悬殊、容易造成过拟合(通俗点就是大部分文章都给你分到素材最多的那个类别去了)) 废话不多说直接上 ...
分类:
Web程序 时间:
2018-01-31 11:40:09
阅读次数:
256
代码主要来自:http://scikit-learn.org/stable/ 误差函数: 采用最小二平方 代码如下: 执行结果如下: ...
分类:
其他好文 时间:
2018-01-29 21:33:50
阅读次数:
236
最近邻分类 概念讲解 我们使用的是scikit learn 库中的neighbors.KNeighborsClassifier 来实行KNN. n_neighbors 是用来确定多数投票规则里的K值,也就是在点的周围选取K个值最为总体范围 weights : 这个参数很有意思,它的作用是在进行分类判 ...
分类:
编程语言 时间:
2018-01-28 19:06:57
阅读次数:
536
MLlib中众多机器学习算法API在单一管道或工作流中更容易相互结合起来使用。管道的思想主要是受到scikit-learn库的启发。 ML API使用Spark SQL中的DataFrame作为机器学习的数据集。DataFrame不同的列可以分别存储文本,特征向量,真实的Lables,和预测值。 T ...
分类:
其他好文 时间:
2018-01-19 14:03:29
阅读次数:
172
去年在北京参加了一次由O'Reilly和Cloudera联合举办的大数据会议Strata Data Conference,并有幸获得了O'Reilly出版的Hands-On Machine Learning with Scikit-Learn and TensorFlow英文书,总体来说,这是一本不 ...
分类:
系统相关 时间:
2018-01-16 01:02:11
阅读次数:
494