码迷,mamicode.com
首页 > 其他好文 > 详细

作业一:统计软件简介

时间:2017-11-05 10:20:06      阅读:172      评论:0      收藏:0      [点我收藏+]

标签:声明   独立性   重复   消费   编写   命令式   克隆   end   sts   

一、SPSS

SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件。最初软件全称为"社会科学统计软件包"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整。为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称SPSS,有Windows和Mac OS X等版本。

1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学技术科学社会科学的各个领域。世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价。

技术分享

发展进程

SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent于1968年研究开发成功,同时成立了SPSS公司,并于1975年成立法人组织、在芝加哥组建了SPSS总部。

2009年7月28日,IBM公司宣布将用12亿美元现金收购统计分析软件提供商SPSS公司。如今SPSS已出至版本22.0,而且更名为IBM SPSS。迄今,SPSS公司已有40余年的成长历史。

功能介绍

1.数据管理

在10版以后,SPSS的每个新增版本都会对数据管理功能作一些改进,以使用户的使用更为方便。13版中的改进可能主要有以下几个方面:

1)超长变量名:在12版中,变量名已经最多可以为64个字符长度,13版中可能还要大大放宽这一限制,以达到对当今各种复杂数据仓库更好的兼容性。

2)改进的Autorecode过程:该过程将可以使用自动编码模版,从而用户可以按自定义的顺序,而不是默认的ASCII码顺序进行变量值的重编码。另外,Autorecode过程将可以同时对多个变量进行重编码,以提高分析效率。

3)改进的日期/时间函数:本次的改进将集中在使得两个日期/时间差值的计算,以及对日期变量值的增减更为容易

2.结果报告

从10版起,对数据和结果的图表呈现功能一直是SPSS改进的重点。在16版中,SPSS推出了全新的常规图功能,报表功能也达到了比较完善的地步。13版将针对使用中出现的一些问题,以及用户的需求对图表功能作进一步的改善。

1)统计图:在经过一年的使用后,新的常规图操作界面已基本完善,本次的改进除使得操作更为便捷外,还突出了两个重点。首先在常规图中引入更多的交互图功能,如图组(Paneled charts),带误差线的分类图形如误差线条图和线图,三维效果的简单、堆积和分段饼图等。其次是引入几种新的图形,已知的有人口金字塔和点密度图两种。

2)统计表:几乎全部过程的输出都将会弃用文本,改为更美观的枢轴表。而且枢轴表的表现和易用性会得到进一步的提高,并加入了一些新的功能,如可以对统计量进行排序、在表格中合并/省略若干小类的输出等。此外,枢轴表将可以被直接导出到PowerPoint中,这些无疑都方便了用户的使用。

3.统计建模

Complex Samples是12版中新增的模块,用于实现复杂抽样的设计方案,以及对相应的数据进行描述。但当时并未提供统计建模功能。在13版中,这将会有很大的改观。一般线形模型将会被完整地引入复杂抽样模块中,以实现对复杂抽样研究中各种连续性变量的建模预测功能,例如对市场调研中的客户满意度数据进行建模。对于分类数据,Logistic回归则将会被系统的引入。这样,对于一个任意复杂的抽样研究,如多阶段分层整群抽样,或者更复杂的PPS抽样,研究者都可以在该模块中轻松的实现从抽样设计、统计描述到复杂统计建模以发现影响因素的整个分析过程,方差分析模型、线形回归模型、Logistic回归模型等复杂的统计模型都可以加以使用,而操作方式将会和完全随机抽样数据的分析操作没有什么差别。可以预见,该模块的推出将会大大促进国内对复杂抽样时统计推断模型的正确应用。

技术分享技术分享

 

3.功能模块    

 1)SPSS Base:SPSS的基本模块,管理整个软件平台,管理数据访问、数据处理和输出,并能进行很多种常见基本统计分析。其他模块必须挂接在此模块才能运行;     2)SPSS Advanced Models:提供了一组成熟的单变量和多变量分析技术来解决现实问题,它能方便地建立更灵活、更成熟的模型,在处理嵌套数据时到更精确的预测模型。它可用于分析事件历史和持续时间数据,还可自定义工具,用内建的宏程序库进一步地定制工具组,以便扩展分析功能用于更专门的用途;  3)SPSS Regression:大量的非线性建模工具、多维尺度分析帮助研究人员进行非线性回归分析。它将数据从数据约束中解放出来,方便地把数据分成两组,建立可控制的模型及表达式进行非线性模型的参数估计,能够建立比简单线性回归模型更好的预测模型;  4)SPSS Trends:用强有力的时间序列分析工具做更好的预测。不论数据的大小或变量的多寡都能建立可靠的预测,自动选取适合模型及参数降低预测误差;更有效率的更新及管理预测模型,让您有更多时间比较和探索与其它模型的差异;产生专家级的经验预测值、预测模型类型、模型参数值及其它相关输出;提供可理解的有意义的信息给组织决策者,以利于企业进行正确预测;     5)SPSS Classification Trees:可建立决策树来确认分组并预测结果,利用直觉式的树形图,颜色分类图,和表格协助研究人员轻松确认和评估区隔;  6)SPSS Categories:用启发性的二维图和感知图让您清晰地洞察数据中的关系,使您可以更完整和方便地分析数据。通过类似传统的回归分析、主成份分析及典型相关分析的分析方法,帮您处理和了解分类数据及定序数据;      7)SPSS Tables:提供35种单元和摘要统计量,能够更方便地显示多重序列数据,它能串接所有的维度,以在同一表格中显示包含不同统计量的各种变量。Tables用更深入的分析,轻松地处理复选题与缺失值,用包括所有统计量、易于理解的表格来展现分析结果,通过完整的表格控制权,研究人员还可以自制表格,创造优美外观;   8)SPSS Data Validation:该模块使您简单便捷地识别可疑或无效地观测,变量,以及数据值;了解数据缺失的模式,总结变量的分布;  9)SPSS Missing Value Analysis:用六种灵活的诊断报告来评估缺失值是否会影响分析结论,更好地了解它们的特性。它通过快捷地诊断缺失值,得到更精确的摘要统计量,方便地用估计值替换缺失值,得到精确的结论;     10)SPSS Conjoint:帮助市场研究人员和新产品开发部门了解在消费者心目中什么产品属性是重要的,了解最偏爱的属性水平是什么,进行定价研究,进行品牌价格研究。在产品投入大批量生产之前进行这些研究,以避免可能的失误;      11)SPSS Complex Samples:该模块可以计算复杂样本的统计数据,拥有专门的规划工具和统计方法,提供各种向导来制定取样方案或详细定义样本,并提供专门的技术来解决样本设计以及相伴标准误差,能够减少得出错误或误导性推论的风险;      12)SPSS Exact Tests:超过30个精确检验涵盖了小型或大型数据集所有的非参数和分类数据问题,包括独立或相关样本的单样本、两样本和K-样本检验,拟合度检验,RxC列联表独立性检验和联合测度检验等。无论您的数据结构为何,该模块都能给您正确的p-值,为您提供可信赖的结果;  13)SPSS Maps:图表化呈现数据,帮助用户做更好的决策。

 二、R语言

R是用于统计分析绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具

R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX,Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R还有以下特点:
1.R是自由软件。这意味着它是完全免费,开放源代码的。可以在它的网站及其镜像中下载任何有关的安装程序、源代码、程序包及其源代码、文档资料。标准的安装文件身自身就带有许多模块和内嵌统计函数,安装好后可以直接实现许多常用的统计功能。[2] 
2.R是一种可编程的语言。作为一个开放的统计编程环境,语法通俗易懂,很容易学会和掌握语言的语法。而且学会之后,我们可以编制自己的函数来扩展现有的语言。这也就是为什么它的更新速度比一般统计软件,如,SPSS,SAS等快得多。大多数最新的统计方法和技术都可以在R中直接得到。[2] 
3. 所有R的函数和数据集是保存在程序包里面的。只有当一个包被载入时,它的内容才可以被访问。一些常用、基本的程序包已经被收入了标准安装文件中,随着新的统计分析方法的出现,标准安装文件中所包含的程序包也随着版本的更新而不断变化。在另外版安装文件中,已经包含的程序包有:base一R的基础模块、mle一极大似然估计模块、ts一时间序列分析模块、mva一多元统计分析模块、survival一生存分析模块等等.[2] 
4.R具有很强的互动性。除了图形输出是在另外的窗口处,它的输入输出窗口都是在同一个窗口进行的,输入语法中如果出现错误会马上在窗口口中得到提示,对以前输入过的命令有记忆功能,可以随时再现、编辑修改以满足用户的需要。输出的图形可以直接保存为JPG,BMP,PNG等图片格式,还可以直接保存为PDF文件。另外,和其他编程语言和数据库之间有很好的接口。[2] 
5.如果加入R的帮助邮件列表一,每天都可能会收到几十份关于R的邮件资讯。可以和全球一流的统计计算方面的专家讨论各种问题,可以说是全世界最大、最前沿的统计学家思维的聚集地.[2] 
R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。 R的语法是来自Scheme。R的使用与S-PLUS有很多类似之处,这两种语言有一定的兼容性。S-PLUS的使用手册,只要稍加修改就可作为R的使用手册。所以有人说:R,是S-PLUS的一个“克隆”。
但是请不要忘了:R是免费的(R is free)。R语言源代码托管在github,具体地址可以看参考资料。[3]  。
R语言的下载可以通过CRAN的镜像来查找。
R语言有域名为.cn的下载地址,有六个,其中两个由Datagurn,由中国科学技术大学提供的。R语言Windows版,其中由两个下载地点是Datagurn和USTC提供的。
三、stata
Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。

新版本的STATA采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,包含统计样本建立、解释、模型与语法、文献等超过一万余页的出版品。

除此之外,Stata软件可以透过网络实时更新每天的最新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata. Journal获得许许多多的相关讯息以及书籍介绍等。另外一个获取庞大资源的管道就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个讯息以及50个程序。

技术分享

技术分享技术分享技术分享

四、PYTHON

Python[1]  (英国发音:/?pa?θ?n/ 美国发音:/?pa?θɑ?n/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。

Python是纯粹的自由软件, 源代码解释器CPython遵循 GPL(GNU General Public License)协议[2]  。Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。

Python具有丰富和强大的库。它常被昵称为胶水语言,能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情形是,使用Python快速生成程序的原型(有时甚至是程序的最终界面),然后对其中[3]  有特别要求的部分,用更合适的语言改写,比如3D游戏中的图形渲染模块,性能要求特别高,就可以用C/C++重写,而后封装为Python可以调用的扩展类库。需要注意的是在您使用扩展类库时可能需要考虑平台问题,某些可能不提供跨平台的实现。

7月20日,IEEE发布2017年编程语言排行榜:Python高居首位[4]  。

Python的设计目标之一是让代码具备高度的可阅读性。它设计时尽量使用其它语言经常使用的标点符号和英文单字,让代码看起来整洁美观。它不像其他的静态语言如C、Pascal那样需要重复书写声明语句,也不像它们的语法那样经常有特殊情况和意外。

 Python开发者有意让违反了缩进规则的程序不能通过编译,以此来强制程序员养成良好的编程习惯。并且Python语言利用缩进表示语句块的开始和退出(Off-side规则),而非使用花括号或者某种关键字。增加缩进表示语句块的开始,而减少缩进则表示语句块的退出。缩进成为了语法的一部分。

if语句,当条件成立时运行语句块。经常与else, elif(相当于else if) 配合使用。

for语句,遍历列表、字符串、字典、集合等迭代器,依次处理迭代器中的每个元素。

while语句,当条件为真时,循环运行语句块。

try语句。与except,finally配合使用处理在程序运行中出现的异常情况。

class语句。用于定义类型

def语句。用于定义函数和类型的方法。

pass语句。表示此行为空,不运行任何操作。

assert语句。用于程序调试阶段时测试运行条件是否满足。

with语句。Python2.6以后定义的语法,在一个场景中运行语句块。比如,运行语句块前加密,然后在语句块运行退出后解密。

yield语句。在迭代器函数内使用,用于返回一个元素。自从Python 2.5版本以后。这个语句变成一个运算符。

raise语句。制造一个错误。

import语句。导入一个模块或包。

from import语句。从包导入模块或从模块导入某个对象。

import as语句。将导入的对象赋值给一个变量。

in语句。判断一个对象是否在一个字符串/列表/元组里。

对象的方法是指绑定到对象的函数。调用对象方法的语法是instance.method(arguments)。它等价于调用Class.method(instance, arguments)。当定义对象方法时,必须显式地定义第一个参数,一般该参数名都使用self,用于访问对象的内部数据。

作业一:统计软件简介

标签:声明   独立性   重复   消费   编写   命令式   克隆   end   sts   

原文地址:http://www.cnblogs.com/yyy1040272971/p/7786615.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!