码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
针对泰坦尼克号幸存者探索一
探索一的内容,选取部分数据进行数据清洗,建立模型,并检验模型的评估效果. https://nbviewer.jupyter.org/github/donggu26/python/blob/master/%E6%B3%B0%E5%9D%A6%E5%B0%BC%E5%85%8B%E5%8F%B7%E6% ...
分类:其他好文   时间:2019-10-11 10:40:32    阅读次数:76
python大数据挖掘和分析的套路
数据分析流程 一般可以按“数据获取-数据存储与提取-数据预处理-数据建模与分析-数据可视化”这样的步骤来实施一个数据分析项目。按照这个流程,每个部分需要掌握的细分知识点如下: 数据获取:公开数据、Python爬虫 外部数据的获取方式主要有以下两种。 第一种是获取外部的公开数据集,一些科研机构、企业、 ...
分类:编程语言   时间:2019-10-09 15:18:08    阅读次数:86
SQL Server数据同步到Oracle
一、分别配置SQL Server和oracle数据库的连接信息并测试连接。 二、新增数据同步任务,配置规则,运行任务,查看日志。 支持数据自动定时抽取,转换,汇聚同步。支持一对多,多对一,多对多等数据同步场景。支持多表级联,数据转换,数据清洗,数据脱敏等需求。 数据源、同步目标、抽取规则、调度计划直 ...
分类:数据库   时间:2019-10-07 11:22:15    阅读次数:117
利用Python进行数据分析 第5章 pandas入门
pandas库,含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas是基于NumPy数组构建。 pandas常结合数值计算工具NumPy和SciPy、分析库statsmodels和scikitlearn,和可视化库matplotlib等工具一同使用。 5.1 pandas数据结构 ...
分类:编程语言   时间:2019-10-07 00:31:44    阅读次数:88
数据清洗
数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘 数值类数据 缺失值 在处理缺失值之前,首先要理解为什么数据会有缺失。 丢弃 直接丢弃含有缺失值的行或者列 适用情况 1. 错误导致的数据缺失(GSP中跑步速度的缺失) 2. 要建模预测的数据列有数据缺失 3. 无用数据(调查车辆的价格,要排除 ...
分类:其他好文   时间:2019-09-30 21:47:37    阅读次数:107
使用Tensorflow搭建回归预测模型之二:数据准备与预处理
前言: 在前一篇中,已经搭建好了Tensorflow环境,本文将介绍如何准备数据与预处理数据。 正文: 在机器学习中,数据是非常关键的一个环节,在模型训练前对数据进行准备也预处理是非常必要的。 一、数据准备: 一般分为三个步骤:数据导入,数据清洗,数据划分。 1、数据导入: 数据存放在原始格式多种多 ...
分类:其他好文   时间:2019-09-25 13:00:54    阅读次数:106
【实验】pyecharts 1.5.0 饼图的绘制
《Python3 爬虫、数据清洗与可视化实战》第十一章介绍pyecharts,是基于 0.2.3版本的。 pyecharts已经更新到1.5.0版本,调用饼图所需要的参数已经不同。 安装旧版本pyecharts太费劲,所以选择使用最新版本(2019.09)的pyecharts 1.5.0, 相应地, ...
分类:其他好文   时间:2019-09-10 09:13:46    阅读次数:272
大数据项目——互联网精准营销——数据清洗
使用kettle进行数据清洗: 1.新建转换去除手机销售信息表的重复记录 要求:去除该字段中的所有空格,方便后续聚合统计,字母统一大小写,去除该字段中的所有特殊字符(各种标点符号) 这里可选用排序加去重组件,也可用哈希去重。然后用字符串操作去括号,大小写统一。字符串替换的正则表达式去除特殊字符。 2 ...
分类:其他好文   时间:2019-09-08 09:36:01    阅读次数:224
pandas 入门
pandas简介:pandas包含的数据结构和数据处理工具的设计使得利用进行数据清洗和数据分析非常快捷;与numpy的区别,pandas用来处理表格型或异质型数据的,而numpy更适合处理同质型的数值类数据。 1、Series简介 1、Series是一种一维的数组型对象,包含以一个值序列,并且包含数 ...
分类:其他好文   时间:2019-09-01 23:31:10    阅读次数:99
特征工程
数据清洗: 1、异常值 1)基于概率分布,构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为异常点。 2)聚类,比如我们可以用KMeans聚类将训练样本分成若干个簇,如果某一个簇里的样本数很少,而且簇质心和其他所有的簇都很远,那么这个簇里面的样本极有可能是异常特征样本了。我们可 ...
分类:其他好文   时间:2019-09-01 15:04:45    阅读次数:78
368条   上一页 1 ... 10 11 12 13 14 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!