码迷,mamicode.com
首页 > 编程语言 > 详细

第一章Python数据分析概述

时间:2020-07-12 00:31:08      阅读:129      评论:0      收藏:0      [点我收藏+]

标签:工具包   程序   表格   高效   机器学习   金融   结合   折线   格式   

第一章Python数据分析概述

1、理解数据

2、认识数据分析

3、数据分析工具Python

4、重要的Python数据分析类库

5、集成开发环境和文本编辑器

6、使用Jupyter Notebook

 

第1节:理解数据

1、数据有结构化数据、半结构化数据和非结构化数据

结构化数据有: 1、表格型数据 2、多维数组(矩阵) 3、通过关键列相互联系的多个表(如sql中的主外键) 4、间隔平均或不平均的时间序列

 

第2节:认识数据分析

1、数据分析是数学与计算机科学结合的产物

2、数据分析方法

  • 描述型分析
  • 诊断型分析
  • 预测型分析
  • 指令型分析

3、数据分析的一般流程

  1. 需求分析
  2. 数据获取
  3. 数据预处理
  4. 数据分析与建模
  5. 模型评价和优化
  6. 部署
 

第3节:数据分析工具Python

1、目前主流的数据分析语言有R、Python

功能对比:

  • Python与R相比速度更快
  • Python的工程化应用强于R
  • Python的应用场景大于R
  • Python处理大数据的速度快于R
  • 统计理论研究、前沿科学研究,R比Python更胜一筹

应用场景对比

  • 使用Python进行数据预处理、数据清洗,特别是针对非结构化的数据,具有极强的灵活性,能够从自由文本、网站等提取信息,便于图像挖掘和为分析准备数据
  • 使用R进行分析、数据可视化与建模:
    • 为分析提供了极好的灵少性
    • R使你在分析时候更容易思考
    • 由于R有着十分活跃的统计和数学社区

2、Python的优势

  • 优雅、简单、明确
  • 强大的标准库
  • 良好的可扩展性
  • 胶水语言(开源、可移植、可嵌入到C等程序中)
 

第4节:重要的Python数据分析类库

1、NumPy(Numerical Python)是Python科学计算的基础包

  • 提供了快速高效的多维数组对象ndarray
  • 提供了对数组执行元素级计算以及直接对数组执行数学运算的函数
  • 提供了读写硬盘上基于数组的数据集的工具
  • 提供了线性代数运算、傅里叶变换、随机数生成功能
  • 提供了成熟的C API,用于Python插件和原生C、C++、Fortran代码访问NumPy的数据结构和计算工具

  • NumPy为Python提供快速的数组处理能力

  • NumPy在数据分析方面作为在算法和库之间传递数据的容器
  • 对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多
  • 由低级语言编写的库可以直接操作NumPy数组中的数据,无需进行任何数据复制工作

2、pandas是Python的一个数据分析包(最初由金融数据分析工具开发而来)

  • pandas为时间序列分析提供了很好支持
  • pandas是基于NumPy的一种工具,是为了解决数据分析任务而创建的
  • pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具
  • pandas提供了大量能使我们快速便捷处理数据的函数和方法
  • pandas是使Python成为强大而高效数据分析环境的重要因素之一

3、Matplotlib是Python的一个2D绘图库

  • 它以各种硬拷贝格式和跨平台的交互式环境,生成用于出版质量级别的图形
  • Matplotlib操作简单,几行代码就可以生成折线图、直方图、功率谱图、条形图、错误图、散点图等
  • 提供了pylab的模块,其中包括了NumPy和pyplot中许多常用的函数,方便用户快速进行计算和绘图

4、SciPy是一组专门解决科学计算中各种标准问题域的包的集合

5、scikit-learn是最为流行的Python的通用机器学习工具包

6、stats models是一个统计分析包,包含经典统计学和经济计算学的算法

 

第5、6节:集成开发环境和文本编辑器及使用Jupyter Notebook

  • Tab补全
  • shit+enter 运行代码
  • 加粗 节能
  • 斜体 斜体
  • 表格制作
  • 导出方式

第一章Python数据分析概述

标签:工具包   程序   表格   高效   机器学习   金融   结合   折线   格式   

原文地址:https://www.cnblogs.com/sruzzg/p/13286159.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!