1.CART分类树的特征选择 分类问题中,假设有K个类,样本点属于第k类的概率为,则概率分布的基尼指数定义为: 如果,集合D根据特征A是否取某一可能值a被分割成和,在特征A的条件下,集合D的基尼指数定义为: 基尼指数代表了模型的不纯度,基尼指数越小,不纯度越小,特征越好. 2.CART分类树的生成算 ...
分类:
其他好文 时间:
2017-05-10 11:15:23
阅读次数:
276
Scikit-Learn库已经实现了所有基本机器学习的算法,可以直接调用里面库进行模型构建。 一、逻辑回归 大多数情况下被用来解决分类问题(二元分类),但多类的分类(所谓的一对多方法)也适用。这个算法的优点是对于每一个输出的对象都有一个对应类别的概率。 from sklearn import met ...
分类:
编程语言 时间:
2017-05-09 11:32:55
阅读次数:
280
BP神经网络是一种按误差反向传播的多层前馈神经网络,含有一个或多个隐含层,其拓扑结构与一般神经网络相似,BP神经网络的隐含层激活函数一般是sigmoid函数,输出层如果是函数逼近,其激活函数一般是线性函数,分类问题其激活函数一般是sigmoid函数 BP神经网络的学习一般分为两部分: 一:正向计算各 ...
分类:
其他好文 时间:
2017-05-08 23:25:27
阅读次数:
223
通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣...
分类:
编程语言 时间:
2017-05-07 21:59:31
阅读次数:
210
从重采样到数据合成:如何处理机器学习中的不平衡分类问题? 转载自【机器之心】http://www.jiqizhixin.com/article/2499本文作者为来自 KPMG 的数据分析顾问 Upasana Mukherjee 如果你研究过一点机器学习和数据科学,你肯定遇到过不平衡的类分布(imb ...
分类:
其他好文 时间:
2017-04-30 17:14:03
阅读次数:
147
在知乎上看到一段介绍卷积神经网络的文章,感觉讲的特别直观明了,我整理了一下。首先介绍原理部分。
通过一个图像分类问题介绍卷积神经网络是如何工作的。下面是卷积神经网络判断一个图片是否包...
分类:
其他好文 时间:
2017-04-29 21:07:12
阅读次数:
399
转自https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。 业务问题描述: 淘宝商品 ...
分类:
其他好文 时间:
2017-04-29 20:01:30
阅读次数:
448
Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签 可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,(译者注: MNIST 是一个手写数 ...
分类:
其他好文 时间:
2017-04-28 00:16:49
阅读次数:
1336
1. C4.5算法简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行 ...
分类:
编程语言 时间:
2017-04-25 16:53:20
阅读次数:
189
零、全部项目通用的: http://blog.csdn.net/mmc2015/article/details/46851245(数据集格式和预測器) http://blog.csdn.net/mmc2015/article/details/46852755(载入自己的原始数据) (适合文本分类问题 ...
分类:
其他好文 时间:
2017-04-24 12:37:09
阅读次数:
240