学完了Coursera上Andrew Ng的Machine Learning后,迫不及待地想去参加一场Kaggle的比赛,却发现从理论到实践的转变实在是太困难了,在此记录学习过程. 一:安装Anaconda 教程大多推荐使用Jupyter Notebook来进行数据科学的相关编程,我们通过Anaco ...
分类:
其他好文 时间:
2018-03-01 19:57:14
阅读次数:
538
算法描述: 输入:训练数据$T={(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})}$,其中$x_{i}=(x_{i}^{(1)},x_{i}^{(2)},...,x_{i}^{(n)})$,$x_{i}^{(j)}$是第i个样本的第j个特征,$x_{i}^ ...
分类:
编程语言 时间:
2018-02-28 01:06:31
阅读次数:
189
大部分是问项目相关的。只记住了几个关键的问题。 1、手写快排 2、生成模型与判别模型的区别 分类问题:2种形式: F(x)=y p(y|x) 生成模型:由数据学习联合分布概率p(x,y),然后求出条件概率分布p(y|x) p(y|x) = p(x,y)/p(x) 例如,朴素贝叶斯。 判别模型: 直接 ...
分类:
其他好文 时间:
2018-02-27 23:27:13
阅读次数:
443
此文旨在把trainNB0这个函数详细讲清楚。 下面把这个函数逐步分解: 1.参数 此函数的参数有两个,一个是trainMatrix,另一个是trainCategory,这两个参数是一步一步的数据处理产生的结果,过程如下: 1.1第一步 创建实验样本 这一句产生了listOPosts和listCla ...
分类:
其他好文 时间:
2018-02-25 19:19:03
阅读次数:
172
1.目的 定时爬取笑话网站,利用朴素贝叶斯分析,将不同笑话发给不同人群。 2.方案 (1)首先利用python爬虫抓取某个网站上的笑话。 (2)之后利用windows系统的任务计划程序功能早上8点定时执行此python爬虫。因为不可能一直开着电脑,所以用云服务器。 (3)然后用朴素贝叶斯模型来判断当 ...
分类:
其他好文 时间:
2018-02-24 20:44:52
阅读次数:
262
第 1 章: 基础知识第 2 章: K近邻算法第 3 章: 决策树算法第 4 章: 朴素贝叶斯第 5 章: 逻辑斯蒂回归第 6 章: 支持向量机第 7 章: 集成方法第 8 章: 回归第 9 章: 树回归第 10 章: KMeans聚类第 11 章: Apriori算法与关联分析第 12 章: FP ...
分类:
Web程序 时间:
2018-02-23 11:00:38
阅读次数:
211
一 、朴素贝叶斯算法概述 前面我们讲过KNN分类算法和决策树分类算法,两者最终都是预测出实例的确定的分类结果,但是,有时候分类器会产生错误结果;本章要学的朴素贝叶斯分类算法则是给出一个最优的猜测结果,同时给出猜测的概率估计值。 朴素贝叶斯对一个测试样本分类时,通过比较p(y=0|x)和p(y=1|x ...
分类:
其他好文 时间:
2018-02-12 13:46:49
阅读次数:
173
1.前言 对大量需要分类的文本数据进行标记是一项繁琐、耗时的任务,而真实世界中,如互联网上存在大量的未标注的数据,获取这些是容易和廉价的。在下面的内容中,我们介绍使用半监督学习和EM算法,充分结合大量未标记的样本,以期获得文本分类更高的准确率。本文使用的是多项式朴素贝叶斯作为分类器,通过EM算法进行 ...
分类:
编程语言 时间:
2018-02-07 14:55:24
阅读次数:
251
下载地址:网盘下载 内容简介 · · · · · · 本书主要介绍如何将测试驱动开发运用于机器学习算法。每一章都通过示例介绍了机器学习技术能够解决的有关数据的具体问题,以及求解问题和处理数据的方法。具体涵盖了测试驱动的机器学习、机器学习概述、K 近邻分类、朴素贝叶斯分类、隐马尔可夫模型、支持向量机、 ...
分类:
其他好文 时间:
2018-02-06 21:35:40
阅读次数:
234
1.C4.5算法 2. k 均值聚类算法 3.支持向量机 4. Apriori 关联算法 5.EM 最大期望算法 Expectation Maximization 6、PageRank 算法 7、AdaBoost 迭代算法 8、kNN 算法 9、朴素贝叶斯算法 10、CART 分类算法。 1.C4. ...
分类:
编程语言 时间:
2018-02-05 10:40:41
阅读次数:
263