0 前言 本文主要利用贝叶斯对缺失值不敏感这一优点,处理数据。 1 贝叶斯和朴素贝叶斯 2 原理实现和编程 R语言中可以使用bnlearn包来对贝叶斯网络进行建模。但要注意的是,bnlearn包不能处理混合数据,所以先将连续数据进行离散化(因子型),再进行建模训练。 (我之前犯过这个错误,就是把混合 ...
分类:
其他好文 时间:
2018-05-15 01:52:50
阅读次数:
224
机器学习中的监督学习的任务重点在于,根据已有的经验知识对未知样本的目标/标记进行预测。 根据目标预测变量的类型不同,我们把监督学习的任务大体分为分类学习与回归预测两类。 监督学习 任务的基本架构流程:1首先准备训练数据 可以是文本 图像 音频等;2然后抽取所需要的特征,形成特征向量;3接着,把这些特 ...
分类:
编程语言 时间:
2018-05-12 00:05:27
阅读次数:
225
from numpy import zeros,array from math import log def loadDataSet(): #词条切分后的文档集合,列表每一行代表一个email postingList=[['your','mobile','number','is','award','... ...
分类:
其他好文 时间:
2018-05-08 20:09:17
阅读次数:
217
0、思想: 对于给定的待分类项x,通过学习到的模型计算后验概率分布,即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为x所属的类别。后验概率根据贝叶斯定理计算。 关键:为避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题,引入了条件独立性假设。用于分类的特征在类确定的条件下都是条件独 ...
分类:
其他好文 时间:
2018-05-04 14:08:02
阅读次数:
138
概率论是许多机器学习算法的基础,因而本篇将会用到一些概率论知识,我们先统计在数据集中取某个特定值的次数,然后除以数据集的实例总数,就得到了取该值的概率。 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对输入数据的准备方式比较敏感 适用于标称型数据 如果P1(X,Y)>P2(X,Y),那 ...
分类:
其他好文 时间:
2018-05-02 17:30:30
阅读次数:
157
使用python3 学习朴素贝叶斯分类api 设计到字符串提取特征向量 欢迎来到我的git下载源代码: https://github.com/linyi0604/kaggle ...
分类:
编程语言 时间:
2018-04-29 11:47:26
阅读次数:
224
1.理论基础——条件概率,词集模型、词袋模型 条件概率:朴素贝叶斯最核心的部分是贝叶斯法则,而贝叶斯法则的基石是条件概率。贝叶斯法则如下: 词集模型:对于给定文档,只统计某个侮辱性词汇(准确说是词条)是否在本文档出现 词袋模型:对于给定文档,统计某个侮辱性词汇在本文当中出现的频率,除此之外,往往还需 ...
分类:
其他好文 时间:
2018-04-26 12:08:21
阅读次数:
195
相同 逻辑回归和朴素贝叶斯都是对条件概率$p(y|X)$进行建模,使得最终的分类结果有很好的解释性。 不同 具体流程 + 逻辑回归: 假设$p(y=1|X)$满足逻辑函数$h(z)=1/(1+exp( z)),z=XW+b$,即$$p(y=1|X)=\frac{1}{1+exp( XW b)}$$, ...
分类:
其他好文 时间:
2018-04-20 23:29:55
阅读次数:
200
怎样写一个拼写检查器 转载:原地址:https://blog.csdn.net/sky_money/article/details/7957996 上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [sp ...
分类:
其他好文 时间:
2018-04-20 22:08:00
阅读次数:
294
看了近70年文本自动摘要研究综述,简单记录一下文本自动摘要的发展历程和方法。 文本摘要通常是指从单个或多个文档中产生一段文本,该文本传达了原始文本的主要信息。 文本自动摘要是20世纪50年代出现的一种用计算机完成的文本摘要技术,帮助人们从信息海洋中解放,提高信息的使用效率。 自动摘要研究是从抽取式摘 ...
分类:
其他好文 时间:
2018-04-15 18:00:32
阅读次数:
1427