安装 sklearn.datasets 这个包提供一些函数用于读取样本数据(数据存在 .csv 或 .csv.gz 文件),比如 酒数据集(用于分类) 13 个特征包括各种成分的含量、酒的颜色等 3 个分类简单的标记为 class_0、class_1、class_2 参数 return_X_y 表示 ...
分类:
其他好文 时间:
2020-03-27 01:01:09
阅读次数:
135
KNN(K-Nearest Neighbors)算法,又称K近邻算法,单从字面意思我们就能知道,这个算法肯定是和距离有关的。 KNN算法的核心思想: 在一个特征空间中,如果某个样本身边和他最相邻的K个样本大多都属于一个类别,那么这个样本在很大程度上也属于这个类别,且该样本同样具有这个类别的特性。 其 ...
分类:
编程语言 时间:
2020-03-26 21:18:36
阅读次数:
71
1. 数据增强Data Augmentation 数据增强让有限的数据产生更多的数据,增加训练样本的数量以及多样性(噪声数据),提升模型鲁棒性。神经网络需要大量的参数,许许多多的神经网路的参数都是数以百万计,而使得这些参数可以正确工作则需要大量的数据进行训练,但在很多实际的项目中,我们难以找到充足的 ...
分类:
其他好文 时间:
2020-03-26 17:43:26
阅读次数:
344
0x00 概述 本来是想分析一下Sodinokibi病毒的新的变种,但是分析了一部分,被他的混淆和循环弄得有点头疼,东西还都是压在内存里。偶然翻到几年前的一个样本分析,又重新看了一下,发现自己在逆向这块几年了,也没实质性的提升,真是光阴喂了狗。这个样本是一个挖矿样本,那时候的样本挖矿还是直接CUP干... ...
分类:
其他好文 时间:
2020-03-26 01:26:40
阅读次数:
171
""" K-近邻算法(KNN):如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别) K取值问题:取小容易受异常值影响,取太大预测准确率不好 性能问题:时间复杂度很高,计算量太大,适用小数据场景,于几千~几万样本 """ from skl ...
分类:
编程语言 时间:
2020-03-26 01:13:03
阅读次数:
86
总结来说,fitted(拟合)是在给定样本上做预测,而predict(预测)是在新的样本上做预测。 以前一篇中的数据为例,图片是根据高度(height)来预测体重(weight)。 其中真实的数据是第一项,fitted得到的数据(拟合数据)是第二项,表现在图中: 真实值位于离散的点上,而fitted ...
分类:
编程语言 时间:
2020-03-25 16:19:34
阅读次数:
147
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 它在分类资料统计推断中的应用包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比 ...
分类:
其他好文 时间:
2020-03-24 23:07:51
阅读次数:
103
刚刚在 iOS 里下了一个软件,它给我发了一封邮件,我觉得它说得很不错。 邮件大概的意思是“日拱一卒,功不唐捐”,之前其实已经摸了很久,但我还是希望自己也能够做到这样。 本来这个博客是拿来存档电脑的各种改动/配置的,相当于一个复盘用 log,不过现在觉得,在日常记录上,这里也用得上。起码感觉比简书要 ...
分类:
其他好文 时间:
2020-03-24 16:04:35
阅读次数:
88
一、啥是反射? 通过反射机制加载一个class字节码文件,获得并调用任意一个类的所有属性和方法。 二、反射能干啥? 在运行时判断任意一个对象所属的类 在运行时构造任意一个类的对象 在运行时判断任意一个类所具有的成员变量和方法 在运行时调用任意一个对象的方法 三、干一干试试看! 1. Animal样本 ...
分类:
其他好文 时间:
2020-03-24 00:59:29
阅读次数:
64
用inception-v3重新训练自己的数据模型 背景: 现代的图像识别模型具有数以百万计的参数,从头开始训练(Train from scratch)需要大量的样本数据以及消耗巨大的计算资源(几百个GPU),因此采用迁移学习的方式重训一个模型(Retrain a model)对于学习模型的成本较低, ...
分类:
其他好文 时间:
2020-03-23 16:51:09
阅读次数:
82