码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
(六)数据处理——录入、清洗、加工、描述
我们在数据分析之前需要进行数据处理、数据录入并把数据清洗干净,做好数据的加工和描述工作。 【参考文献】《数据分析:企业的贤内助》 陈哲 著 ...
分类:其他好文   时间:2016-12-05 09:32:02    阅读次数:274
数据清洗记录2
爬虫爬下来的数据,有个字段含有大量脏数据,如图1所示,现在需要提取出“红色框”中的“作者机构名称”。 一开始用的excel,替换、分类、按照模式的快速填充各种都用上了,但是,数据量太大了(有上万条,辛苦机器性能还行)而且你懂得,人工操作肯定有误操作而且分列啥的这些功能适应新不怎么强,结果,弄了小半天 ...
分类:其他好文   时间:2016-11-28 00:43:26    阅读次数:136
Oozie_初识
Oozie 任务调度框架(基于工作流) 任务调度框架 Oozie三大功能 Oozie的架构 Oozie安装部署 ...
分类:其他好文   时间:2016-11-24 15:22:39    阅读次数:282
Salesforce 数据清洗
新系统上线后,需要导入历史数据,但是旧数据格式,数据缺失,数据错误,奇异值,属性归类与新系统有很大的gap。因此我们需要建立一套数据动态清洗规则给Salesforce系统,通过这些规则自动清洗导入数据,清洗规则可以让function自己配置。而不需要IT负责 下面将详细举一个例子如何在salesfo ...
分类:其他好文   时间:2016-11-19 20:29:18    阅读次数:266
北风日志的分析
1.分析过程: -》需求分析 -》数据清洗:源表 -》格式化 -》过滤字段 -》use表 -》数据分析 -》数据导出 2.日志(第一条) 3.Apache官网的关于日志的加载的案例 4.自定义实现北风的日志加载 ...
分类:其他好文   时间:2016-11-17 00:28:39    阅读次数:176
R----stringr包介绍学习
目录 1. stringr介绍 stringr包被定义为一致的、简单易用的字符串工具集。所有的函数和参数定义都具有一致性,比如,用相同的方法进行NA处理和0长度的向量处理。 字符串处理虽然不是R语言中最主要的功能,却也是必不可少的,数据清洗、可视化等的操作都会用到。对于R语言本身的base包提供的字 ...
分类:其他好文   时间:2016-11-14 20:05:54    阅读次数:380
【转载】使用pandas进行数据清洗
使用pandas进行数据清洗 本文转载自:蓝鲸的网站分析笔记 原文链接:使用python进行数据清洗 数据清洗是一项复杂且繁琐(kubi)的工作,同时也是整个数据分析过程中最为重要的环节。有人说一个分析项目80%的时间都是在清洗数据,这听起来有些匪夷所思,但在实际的工作中确实如此。数据清洗的目的有两 ...
分类:其他好文   时间:2016-11-02 10:23:26    阅读次数:752
机器学习通用框架
作者:Datartisan链接:https://zhuanlan.zhihu.com/p/22833471来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。每个数据科学家每天都要处理成吨的数据,而他们60%~70%的时间都在进行数据清洗和数据格式调整,将原始数据转变为可以 ...
分类:其他好文   时间:2016-10-16 16:18:44    阅读次数:179
收缩Oracle数据文件
最近有网友提到收缩Oracle数据文件的问题,这是DBA经常碰到的一个常见问题。通常我们需要收缩相应的数据文件以减少来自磁盘空间的压力以及提高数据库的整体性能。但这并非对于所有情形都是适用的,尤其是生产环境。因为生产环境数据清洗相当较少,因此空间浪费也比较小,而且一旦收缩之后又要重新自动扩展数据文件 ...
分类:数据库   时间:2016-09-17 00:35:50    阅读次数:250
ETL构建数据仓库五步法
ETL构建企业级数据仓库五步法 在数据仓库构建中,ETL贯穿于项目始终,它是整个数据仓库的生命线,包括了从数据清洗,整合,到转换,加载等的各个过程,如果说数据仓库是一座大 厦,那 么ETL就是大厦的根基,ETL抽取整合数据的好坏直接影响到最终的结果展现。所以ETL在整个数据仓库项目中起着十分关键的作 ...
分类:其他好文   时间:2016-09-10 10:13:11    阅读次数:173
368条   上一页 1 ... 27 28 29 30 31 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!