码迷,mamicode.com
首页 >  
搜索关键字:样本    ( 4292个结果
分类:贝叶斯分类之新闻组数据组学习(查看数据类型的方法)(环境:Pycharm)
1、查看数据类型: type(数据)(在下面的探究中会标注出来) 2、初步探究(重点是机器学习模型只能处理数值数据,所以新闻样本集里的每一个文本样本都要转为TF-IDF向量。) from sklearn.datasets import fetch_20newsgroups from sklearn. ...
分类:其他好文   时间:2021-05-04 16:34:58    阅读次数:0
Numpy实现机器学习交叉验证的数据划分
Numpy实现K折交叉验证的数据划分 本实例使用Numpy的数组切片语法,实现了K折交叉验证的数据划分 背景:K折交叉验证 为什么需要这个?在机器学习中,因为如下原因,使用K折交叉验证能更好评估模型效果: 样本量不充足,划分了训练集和测试集后,训练数据更少; 训练集和测试集的不同划分,可能会导致不同 ...
分类:其他好文   时间:2021-05-04 15:39:17    阅读次数:0
一文读懂线性回归、岭回归和Lasso回归
一、线性回归 一、线性回归 ? 假设有数据有 ,其中 , 。其中m为训练集样本数,n为样本维度,y是样本的真实值。线性回归采用一个多维的线性函数来尽可能的拟合所有的数据点,最简单的想法就是最小化函数值与真实值误差的平方(概率解释-高斯分布加最大似然估计)。即有如下目标函数: 其中线性函数如下: ? ...
分类:其他好文   时间:2021-04-28 12:19:06    阅读次数:0
Gaussian Naive Bayes 高斯型 朴素贝叶斯
对于同一个input ,在某个正态分布上所在的区间更接近置信区间中心,对应的Y值大 ,说明它更像是这个label上的某一个样本 Geogebra 模拟 label0: label1: result summary: label0: meanVal : array([4.96571429, 3.388 ...
分类:其他好文   时间:2021-04-27 14:22:28    阅读次数:0
KNN K-Nearest-Neighbor K最近邻居
参考 https://www.cnblogs.com/wj-1314/p/10291284.html 一句话概括 在n维度空间中取距离目标点最近的K个样本,如果是分类问题,按照多数投票法取分类结果 如果是回归问题,取平均值 根据二分法衍生出来的K-D(K-Dimension K维度)算法可以加速KN ...
分类:其他好文   时间:2021-04-24 11:57:18    阅读次数:0
Adaboost算法
AdaBoost,是英文"Adaptive Boosting"(自适应增强)的缩写。 Adaboost算法的思想:在前一轮识别过程中识别错误的样本会在下一轮中提升权重,而那些识别正确的样本会降低权重。 Adaboost算法的原理:(1)将每个样本的权重进行初始化。每一个样本的权重相同(2)训练弱分类 ...
分类:编程语言   时间:2021-04-21 11:50:08    阅读次数:0
房地产爬虫数据源
观察样本城市:上海、北京、深圳、广州、天津、重庆、苏州、成都、武汉、东莞 中介数据: 成交数据: 链家: https://su.lianjia.com/chengjiao/ #城市成交 https://su.lianjia.com/chengjiao/c2311053511334/ #小区成交 (北 ...
分类:其他好文   时间:2021-04-20 15:32:55    阅读次数:0
sklearn GBDT 参数
AdaBoost训练弱分类器关注的是那些被分错的样本,AdaBoost每一次训练都是为了减少错误分类的样本。而GBDT训练弱分类器关注的是残差,也就是上一个弱分类器的表现与完美答案之间的差距,GBDT每一次训练分类器,都是为了减少这个差距。 GBDT的原理就是所有弱分类器的结果相加等于预测值,然后下 ...
分类:其他好文   时间:2021-04-19 15:12:38    阅读次数:0
病毒样本静态分析工具-YARA
研究静态检测恶意软件的方法很多,最常见也没有效果的就是文件哈希,即一对一的恶意软件进行检测。 为了更快的进行检测,现在的静态检测引擎会提取二进制文件的关键区域,并对区域内的特定OP代码字符串进行签名对比,最好的一个开源的例子就是YARA(yara是一款帮助恶意软件研究人员识别和分析恶意软件样本的开源 ...
分类:其他好文   时间:2021-04-10 13:30:34    阅读次数:0
linux下利用awk快速计算二分类评价指标AUC
一、AUC含义 AUC是二分类指标ROC曲线下方的面积,在0~1之间。而在预测结果概率列表中可以理解为负样本排在正样本前面的概率(对概率值列排序)。 二、概率列表 通常建模结果可以输出为包含两列的表,第一列为真实标签(1/0),第二列为预测标签1的概率,示例如下: 三、利用awk计算AUC (1)先 ...
分类:系统相关   时间:2021-04-10 12:59:15    阅读次数:0
4292条   上一页 1 2 3 4 5 ... 430 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!