1、C4.5机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的 属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输 出。...
分类:
其他好文 时间:
2014-07-22 22:49:55
阅读次数:
228
决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。
1:简单概念描述
决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。
事件ai发生的概率用p(ai...
分类:
其他好文 时间:
2014-07-21 22:21:08
阅读次数:
360
上一节最后讲到了建立一个extractor的方法,手工建立和机器学习等,这一节详细阐述手工建立pattern的方法。引用Jurafsky教授常说的话: let‘s look at the intuition. Jurafsky教授讲话总是微皱着眉头,感觉很较真...
分类:
其他好文 时间:
2014-07-21 13:30:48
阅读次数:
257
二种类别的点在平面上分布,我想找到一条直线,将平面划为两半边,每一边的点类别尽可能的统一,如何找到效果最佳的分界线,这就是最佳拟合问题,也叫作回归问题。 这次,代码很少。logRegres.py #?coding:utf-...
分类:
其他好文 时间:
2014-07-21 10:24:21
阅读次数:
321
从今天开始学习python,学习的目的:国外的都是以python做编程入门,去英国前要把课补上今天买了一本机器学习实战,是用python写的,虽然大部分代码能够看懂,但是系统的学习还是很有必要知乎上的大牛很推崇python,一定有道理,学学也无妨在知乎上找了一些python入门的经验,这篇比较中意。...
分类:
编程语言 时间:
2014-07-21 09:31:57
阅读次数:
357
学习方式根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法,这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。监督式学习:在监...
分类:
其他好文 时间:
2014-07-21 08:08:39
阅读次数:
327
前一篇博文提到怎么得到汉字字库,这篇文章讲怎么把一个一个的字转成图片,这在机器学习中会有用处。
一句话,用pygame渲染文字到图片上。
下面上代码。
import os
import pygame
chinese_dir = 'chinese'
if not os.path.exists(chinese_dir):
os.mkdir(chinese_dir)
pygame.ini...
分类:
编程语言 时间:
2014-07-20 11:43:38
阅读次数:
334
1:算法简单描述
给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。
2:python代码实现
创建一个kNN.py文件,将核心代码放在里面了。
(1) 创建数据
#创造数据集
def createDataSet():
...
分类:
其他好文 时间:
2014-07-19 23:24:39
阅读次数:
300
机器学习书籍资料推荐本文为转载,源地址为:http://blog.chinaunix.net/uid-10314004-id-3594337.html机器学习的资料较多,初学者可能会不知道怎样去有效的学习,所以对这方面的资料进行了一个...
分类:
其他好文 时间:
2014-07-19 23:11:51
阅读次数:
283
Accuracy不是评估分类器的有效性的唯一度量。另外两个有用的指标是precision和recall。这两个度量可提供二元分类器的性能特征的更多视角。
分类器的 Precision
Precision度量一个分类器的正确性。较高的精确度意味着更少的误报,而较低精度意味着更多的误报。这是经常与recall相反,作为一种简单的方法来提高精度,以减少召回。
分类器的 Re...
分类:
其他好文 时间:
2014-07-19 11:26:04
阅读次数:
1829