lesson1 在学习的过程中,请思考以下几个问题:1 什么是信息?它和数据有什么区别?2 信息具有哪些特性?这些特性对其使用有什么影响?3 什么是系统?系统的特性有哪些?4 生活中常见的系统有哪些? 1.信息反映的是客观世界各种事物的特征; 信息是可以通讯的,信息通讯是客观事物联系的基本方式之一; ...
分类:
其他好文 时间:
2020-03-02 19:01:51
阅读次数:
70
卡方验证(ChiSqSelector): 卡方检验 假设检验 首先假设特征和标签列是相关的,如果计算出来的结果差距很大,拒绝原假设,说明特征和标签列是独立的,这列特征不去选择。 变量进行 独立性检验 , 如果独立性高,那么表示两者没太大关系,特征可以舍弃 ; 如果独立性小,两者相关性高,则说 明该特 ...
分类:
其他好文 时间:
2020-03-01 12:36:30
阅读次数:
65
当通过热力图,查看到相关系数较高的变量时,还可以画图查看共线性具体状况,来判断是否需要删除一个。 ...
分类:
其他好文 时间:
2020-02-26 01:18:18
阅读次数:
61
数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。 一,认识变量和数据 变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值。 1,变量 变量是用来描述总体中成员的某一个特性,例如,性别、年龄、身高、收入 ...
分类:
其他好文 时间:
2020-02-24 23:50:47
阅读次数:
155
什么是耦合 我们总是听到说这有耦合,那要解耦。耦合看起来很高大上的名词,实际上耦合代表的就是各种元素之间的依赖性和相关性。 耦合的种类 数据之间的耦合;例如: class Person{ string name; int age; } name和age属于同一个类里面,他们就产生了耦合 函数之间的耦 ...
分类:
其他好文 时间:
2020-02-19 13:10:10
阅读次数:
51
01 RPM包管理 [TOC] 1.1RPM概述 RPM是 的缩写,由Redhat公司开发出来的。 RPM是通过数据库记录的方式来将你所需要的软件安装到你的Linux主机上一套管理程序。也就是说,你的linux系统中存在着一个关于RPM的数据库,它记录了安装包以及包之间依赖相关性。 1.软件包类型 ...
分类:
系统相关 时间:
2020-02-15 09:23:22
阅读次数:
121
为了得到更准确的结果,必须理解数据的特征、分布情况,以及需要解决的问题,以便建立和优化算法模型。 简单的查看数据 审查数据的维度 审查数据的类型和属性 总结查看数据分类的分布情况 通过描述性统计分析数据 理解数据属性的相关性 审查数据的分布状态 简单的查看数据 对数据的简单审视,是加强对数据的理解最 ...
分类:
系统相关 时间:
2020-02-10 18:13:21
阅读次数:
76
Jaccard相关系数用来衡量两个集合的相关性,数值越大,相似度就越高。相对于Jaccard系数,Jaccard距离是用来衡量两个样本集合的差异性的。 Jaccard相关系数: Jaccard距离: 如果A,B集合中元素的取值为二值数(0,或者1,0代表此元素不在这个集合中,1代表此元素在这个集合中 ...
分类:
其他好文 时间:
2020-01-30 17:22:37
阅读次数:
215
对数据质量进行简单的分析后,我们就可以开始来分析数据的特征分析了。数据的特征分析可以从以下几个方面开展:分布分析对比分析统计量分析周期性分析相关性分析通过以上5种方式,可以找到数据中存在的某种特征。分布分析分布分析很容易理解,就是理解数据的分布情况。例如:在0-100区间有多少数据、100-1000... ...
分类:
其他好文 时间:
2020-01-30 12:29:06
阅读次数:
74
欢迎来到"bio生物信息"的世界 新年的第一篇更文。 祝大家新春快乐!身体健康! 18号回家以后,经历了如下过程。 20号 喉咙痛 21号 喉咙痛 22号喉咙痛 咳嗽 23 24号 咳嗽 25号 咳嗽为主 鼻塞 夜间咳嗽加剧 26号 咳嗽为主 鼻塞 流鼻涕 夜间咳嗽加剧 27号 咳嗽为主 鼻塞 流鼻 ...
分类:
Web程序 时间:
2020-01-28 17:46:42
阅读次数:
192