贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类,而朴素贝叶斯分类可谓是里面最简单、入门的一种。首先关于贝叶斯定理,感觉简单而伟大,前些天一直在看吴军的数学之美(没看过的极力推荐)系列文章,看到自然语言处理从规则模型到统计模型转变的时候,语言的识别准确率上升好几个等级,以至于今天的语言识别到达很强大的地步,同时对于搜索引擎,网页搜索的准确率,也上升好多。这其中的最最重...
分类:
编程语言 时间:
2015-08-05 12:51:53
阅读次数:
250
1.准确率(查准率) 准确率P=查找到的正确数据条数/查找到的总数据条数2.召回率(查全率) 召回率R=查找到的正确数据条数/总共的正确数据条数3.F-Measure 当α为1时,即为F1值 F1值是P和R的综合,F1值较高时,模型效果较好4.example 100条鱼,100只虾,小明现...
分类:
其他好文 时间:
2015-08-03 13:03:07
阅读次数:
127
该节主要是把《机器学习实战》书上第三章关于决策树的相关代码照样子实现了一遍。对其中一些内容作了些补充,对比ID3与C45区别,同时下载了一个大样本集实验决策树的准确率。首先,对于决策树的原理,很多很好的博客值得一看:从决策树学习谈到贝叶斯分类算法、EM、HMM决策树算法总结这两个已经详解了关于决策树的所有,慢慢品读吧。下面是书上外加添加的部分程序,首先是tree.py里面的程序:import ope...
分类:
编程语言 时间:
2015-07-31 22:01:49
阅读次数:
282
泥沙龙笔记:从 sparse data 再论parsing乃是NLP应用的核武器白:parsing准确率,如果把所有未尽事宜都丢给语义语用,有点自说自话的味道,最终用户无感。Wei:用户感不感没大关系,关键是它节省了语用层面的开发。没有parsing,抽取是在表层进行,存在的困境是 sparse d...
分类:
其他好文 时间:
2015-07-29 21:06:59
阅读次数:
110
Bloom Filter(BF) 是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法,用于**快速**查找某个元素是否属于集合, 但不要求百分百的准确率。 Bloom filter通常用于爬虫的url去重,即判断某个url是否已经被爬过。 看过几个php实现的BF,都觉得可读性不是很强, 本文主要给出我对Bloom Filter的一个php实现。...
分类:
Web程序 时间:
2015-07-24 20:53:40
阅读次数:
188
参考NB:高效、易实现;性能不一定高LR:对数据的假设少,适应性强,可用于在线学习;要求线性可分决策树:易解释,对数据线性与否无关;易过拟合,不支持在线RF:快速并且可扩展,参数少;可能过拟合SVM:高准确率、可处理非线性可分数据(可处理高维数据);内存消耗大,难于解释,运行和调参麻烦
分类:
编程语言 时间:
2015-07-24 20:21:23
阅读次数:
136
https://leetcode.com/problemset/algorithms/上面的题目,每天做几道题目,大体从准确率高至低做下去
编程语言为c语言,因为跑的最快…
237
Delete Node in a Linked List
47.8%
Easy
Write a function to delete a node (ex...
分类:
其他好文 时间:
2015-07-20 23:53:13
阅读次数:
293
区别:使用不同的属性选择度量。信息增益偏向多值属性信息增益率倾向产生不平衡的划分基尼指数偏向多值属性,并且当类的数量很大时会有困难,还倾向于导致相等大小的分区和纯度C4.5:优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效...
分类:
其他好文 时间:
2015-07-11 23:59:50
阅读次数:
447
分类器提升精确度主要就是通过组合,综合多个分类器结果,对最终结果进行分类。组合方法主要有三种:装袋(bagging),提升(boosting)和随即森林。装袋和提升方法的步骤:1,基于学习数据集产生若干训练集2,使用训练集产生若干分类器3,每个分类器进行预测,通过简单选举(装袋)或复杂选举(提升),...
分类:
编程语言 时间:
2015-07-06 21:23:11
阅读次数:
230
将数据挖掘中这些评测指标的基本概念做一整理,忘了的时候还可以来查一查。
精确度,有时也叫正确率,是英文中的precision而不是accuracy。表示正确识别为此类的样本数目(TP)/识别为此类的样本总数目(TP+FP)。FP就是那些原本不是此类但被错误的分为此类的样本数目。
召回率,这个名称容易使人把它和召回缺陷产品的比率联想到一起,完全不是一码事。所以另外一种翻译的名称更...
分类:
其他好文 时间:
2015-07-05 19:58:55
阅读次数:
202