本文參考:http://scikit-learn.org/stable/data_transforms.html 本篇主要讲数据预处理,包含四部分: 数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。哇哈哈。还是关注预处理比較靠谱。。。。 重要的不翻译:scikit-le ...
分类:
其他好文 时间:
2017-07-24 10:07:54
阅读次数:
419
数据来源? 购买(政府、阿里巴巴、数据交易所) 爬虫 数据采集(机器人、无人驾驶、人工智慧) 获得的是原始数据 什么是数据清洗? 按照需求分析,过滤出有效的完整的数据,放入数据仓库 etc 数据清洗转换 有哪些应用? 商品、 新闻推荐 信贷、个人信用 婚姻(珍爱网) 舆论检测平台 医疗(全民健康档案 ...
分类:
其他好文 时间:
2017-07-07 13:18:56
阅读次数:
149
如题:浅谈商城活动设计 标题改成“浅谈商城活动的数据库设计”可能更加合理。 文章背景 为什么要吐槽,为什么要写这篇文章 本来我在弄大数据搜索,自己玩的不亦说乎,虽然感觉数据库设计不合理,但我可以数据清洗,弄到自己的搜索引擎里,自己随便玩,所以当时感觉在烂的数据库设计和我关系不大,只要我把数据清洗好, ...
分类:
其他好文 时间:
2017-06-26 21:12:07
阅读次数:
149
误打误撞进入这个行业,也算是缘分把,不到一年的时光里,剖析一下自己,别写了半天代码,学了一堆东西,不知道干嘛.反省一下. 1.目标与知识库 就目前在我看来,是想成为一名优秀的数据工程师,掌握全栈数据分析技术. 技术链: 爬虫 -python 数据清洗 -linux,shell,python,awk, ...
分类:
其他好文 时间:
2017-06-17 16:05:12
阅读次数:
181
本周群主用了两天时间为浙师大的《旅游大数据分析师——Pandas数据清洗》课程备课,和Pandas来了一次深度亲密接触。现在做梦都是DataFrame变形:stack,unstack,pivot table……对Pandas有了全新的认识:原来它不只是提供类似表格的数据结构DataFrame这么简单 ...
分类:
其他好文 时间:
2017-06-04 21:13:11
阅读次数:
217
原创作品。出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 【背景】在将某数字类型字段插入到目标端时,报错。提示类型不对,查看 ...
分类:
其他好文 时间:
2017-05-31 10:34:38
阅读次数:
197
通常网站日志采集的数据是不规则的,同时也包含了许多无用的日志。当需要分析一些核心指标来满足系统业务决策的时候,对日志的数据清洗在所难免,楼主本篇将介绍如何使用mapreduce程序对日志数据进行清洗,将清洗后的结构化数据存储到hive,并进行相关指标的提取。 ...
分类:
Web程序 时间:
2017-05-21 13:55:57
阅读次数:
271
第二次读这本书,这次是精读,画了思维导图。书很好,完整的知识结构和由浅入深的介绍,非常全面以至于知识点都梳理了三天。 作为导论式的总览,对大数据领域有了个总体的认识,接下来可以更针对性地加强和实践。 总体上比较侧重基础理论和分布式系统的介绍,数据清洗、实时与离线融合的实践、数据分析以及将各系统串联打 ...
分类:
编程语言 时间:
2017-05-18 22:11:54
阅读次数:
225
2017-04-19 部门经理习惯用C#做数据清洗,遇到个需要验证的问题,在一个万次左右循环内对文件执行打开关闭操作,比在循环前打开文件、循环后关闭文件耗时多多少。 ...
此文已经有DF比赛平台约稿转载 写于2017年3月份大家好,我是智浪淘沙,在大数据比赛的圈子里大家喜欢称呼我为浪叫兽。 我先做一个简单的且不如意的人生轨迹介绍把,出生农村的我,对自己的才智一直是很自信的。可能是由于自己的天性,不会表达自己加不会按部就班的喜欢上学习,我小学和初中都默默无闻,成绩也不怎 ...
分类:
其他好文 时间:
2017-05-07 17:36:05
阅读次数:
507