Mantel test 是对两个矩阵相关关系的检验,由Nathan Mantel在1976年提出。之所以抛开相关系数发展这样一种方法,是因为相关系数只能处理两列数据之间的相关性,而在面对两个矩阵之间的相关性时就束手无策。Mantel检验专治这种不服。 这种方法多用于生态学上,不同的样本case对应不 ...
分类:
其他好文 时间:
2020-05-24 16:23:41
阅读次数:
111
模型估计与模型选择 模型估计 当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就成为了学习方法评估的标准。测试误误差反映了学习方法对未知的测试数据集的预测能力,又被称为泛化能力。 过拟合:一味的追求提高训练数据的预测能力,所选模型的复杂度则往往会比真模型更高,但会造成过拟合。为了防止过 ...
分类:
其他好文 时间:
2020-05-23 09:56:42
阅读次数:
46
概率Probability,先验概率Prior,后验概率Posterior 概率是一个衡量不确定性的工具。 一个例子:我们来估测某一个人的生日是十月份的概率, 在没有任何数据样本的情况下 ,我们可以估计这个概率是$Pr(October) = \frac{1}{12}\approx8.3%$. 现在假 ...
分类:
其他好文 时间:
2020-05-22 00:15:35
阅读次数:
51
存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据 与所属分类的对应关系。输人没有标签的新数据后,将新数据的每个特征与样本集中数据对应的 特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们 只选择样本数据集中前K个最相 ...
分类:
编程语言 时间:
2020-05-21 14:53:03
阅读次数:
56
1.简介 随机森林和GBDT都属于集成学习。 集成学习可分为两大类:bagging和boosting; 随机森林(RF) ∈ bagging GBDT ∈ boosting 2.随机森林:由多个决策树组成的一个集成学习算法,可用于分类和回归(分类效果好于回归),最终结果采用投票制得出。 数据集处理: ...
分类:
其他好文 时间:
2020-05-21 00:19:26
阅读次数:
49
一、什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源: KNN算法最早是由Cover和Hart提出的一种分类算法. 计算距离公式: 两个样本的距离可以通过如下公式计算,又叫欧式距离。 比如说,a(a1 ...
分类:
编程语言 时间:
2020-05-20 12:17:07
阅读次数:
62
说起提基因组DNA做模板,上千份样本让人心烦意乱,每到采样季,多少研究生都不愿想起那些年洗过的研钵和无数的EP管。菌落PCR,各种处理后,酵母、农杆菌等还没裂开,而做实验的您估计脑袋快要炸开了!多想有一款靠谱的直接PCR产品来拯救实验,拉您跳出基因组DNA提取泥潭!聚合美超光速Mix及PCR扩增伴侣 ...
分类:
其他好文 时间:
2020-05-19 10:25:52
阅读次数:
207
极大似然估计 我们先从极大似然估计说起,来考虑这样的一个问题,在给定的一组样本x1,x2······xn中,已知它们来自于高斯分布N(u, σ),那么我们来试试估计参数u,σ。 首先,对于参数估计的方法主要有矩估计和极大似然估计,我们采用极大似然估计,高斯分布的概率密度函数如下: 我们可以将x1,x ...
分类:
编程语言 时间:
2020-05-18 23:05:34
阅读次数:
130
以少见多,以小见大,以样本见总体。提取样本信息,推荐总体信息。 必然现象:可预言结果,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生/必然不发生,称为必然现象inevitable phenomena /确定性现象 definite phenomena。 随机现象:事前不可预言其结 ...
分类:
其他好文 时间:
2020-05-18 22:22:54
阅读次数:
53
完备事件组 设 Ω 为试验E的样本空间,B1, B2, …, Bn 为E的一组事件。若 Bi ∩ Bj = Φ (i ≠ j 且 i, j =1, 2, …n) B1 U B2 U … U Bn = Ω 则称B1, B2, …, Bn 为样本空间 Ω 的完备事件组的一个划分。 注:上图就是对一个样本 ...
分类:
其他好文 时间:
2020-05-18 21:02:50
阅读次数:
85