码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
什么是数据清洗?(翻译自维基百科)
Data cleaning[edit] Once processed and organized, the data may be incomplete, contain duplicates, or contain errors. The need for data cleaning will a ...
分类:其他好文   时间:2016-07-09 07:03:59    阅读次数:270
ch4-SPSS Statistics操作进阶
知识点: 单选题、多选题录入 分析前的数据清洗,包括删除重复记录、异常值、逻辑校验 总体和样本分布结构不一致的情况下的数据加权 相关问题分析时的交叉表 1、项目背景 2、问卷录入 单选题的定义: 当定义了变量的值,如:1=“男”,2=“女”,在录入时可以通过“显示指标签”图标来通过下拉框选择的方法“ ...
分类:其他好文   时间:2016-07-04 18:34:22    阅读次数:152
特征工程
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:其他好文   时间:2016-06-29 20:40:42    阅读次数:501
机器学习实战3:逻辑logistic回归:病马实例
本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例。例子中涉及了数据清洗工作,缺失值的处理。 一 引言 1 sigmoid函数,这个非线性函数十分重要,f(z) = 1 / (1 + e^(-z) ), 画图如下: 这个函数可以很好的把数轴上的值映射到0, ...
分类:其他好文   时间:2016-06-25 23:00:12    阅读次数:511
数据质量及数据清洗方法
先对其进行介绍: 数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。[1] 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为 ...
分类:其他好文   时间:2016-06-22 21:54:11    阅读次数:204
命令行中的数据科学
目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数 ...
分类:其他好文   时间:2016-06-14 23:34:52    阅读次数:259
你为什么需要大数据?看台湾企业家怎么说
企业必须思索:你为什么需要大数据?要做大数据,最大的挑战就是有很多未知,也需要很多投资,像红门互动就投资数据分析工具、人员,甚至是储存设备。蒐集回来的多为杂乱数据,数据杂乱则代表资 讯源不一致,所以红门互动有70%的时间都在做数据清洗,再进入分析过程做数据计算?.
分类:其他好文   时间:2016-06-13 19:27:51    阅读次数:173
一些数据相关的重要概念
马上要开始数据相关的工作了,但是有时候会自觉不自觉的对一些最近火热的概念有些不太清晰的地方,所以在此整理一下这些概念,希望在以后的工作学习过程中,能结合自己的感受,不断进行完善。 大数据:(概念、实现、)数据采集、数据挖掘、数据清洗 深度学习: 机器学习: 自然语言处理: ...
分类:其他好文   时间:2016-06-12 21:45:01    阅读次数:181
北京数据平台总结1
首先是数据处理,来源于不同数据库,进行数据清洗 然后是springmvc 框架,以注解的方式返回接口,其中对于人口部分,每个街道有各自的表,新建了表存储表的信息,利用拼字符串的方式来合成表名,再者就是用hibernate生成表,form,里面涉及到一些数字的,最好 用对象来表示如int,用Integ ...
分类:其他好文   时间:2016-06-09 13:26:21    阅读次数:141
crontab 定时 hive2Mysql4sqoop
当我们手动执行脚本没有问题时,我们认为万事OK了。其实不然放入crontab之后缺少各种东西。我的业务是使用hive中原始表当数据源,创建一个临时表,将数据原的数据清洗一遍放入临时表,再使用sqoop将临时表的数据导入到Mysql中。首先我的hive表是orc文件压缩格式,sqoop无法直接..
分类:数据库   时间:2016-06-09 01:06:11    阅读次数:324
368条   上一页 1 ... 29 30 31 32 33 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!