误打误撞进入这个行业,也算是缘分把,不到一年的时光里,剖析一下自己,别写了半天代码,学了一堆东西,不知道干嘛.反省一下. 1.目标与知识库 就目前在我看来,是想成为一名优秀的数据工程师,掌握全栈数据分析技术. 技术链: 爬虫 -python 数据清洗 -linux,shell,python,awk, ...
分类:
其他好文 时间:
2017-06-17 16:05:12
阅读次数:
181
本周群主用了两天时间为浙师大的《旅游大数据分析师——Pandas数据清洗》课程备课,和Pandas来了一次深度亲密接触。现在做梦都是DataFrame变形:stack,unstack,pivot table……对Pandas有了全新的认识:原来它不只是提供类似表格的数据结构DataFrame这么简单 ...
分类:
其他好文 时间:
2017-06-04 21:13:11
阅读次数:
217
原创作品。出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。深蓝的blog:http://blog.csdn.net/huangyanlong/article/details/46340383 【背景】在将某数字类型字段插入到目标端时,报错。提示类型不对,查看 ...
分类:
其他好文 时间:
2017-05-31 10:34:38
阅读次数:
197
通常网站日志采集的数据是不规则的,同时也包含了许多无用的日志。当需要分析一些核心指标来满足系统业务决策的时候,对日志的数据清洗在所难免,楼主本篇将介绍如何使用mapreduce程序对日志数据进行清洗,将清洗后的结构化数据存储到hive,并进行相关指标的提取。 ...
分类:
Web程序 时间:
2017-05-21 13:55:57
阅读次数:
271
第二次读这本书,这次是精读,画了思维导图。书很好,完整的知识结构和由浅入深的介绍,非常全面以至于知识点都梳理了三天。 作为导论式的总览,对大数据领域有了个总体的认识,接下来可以更针对性地加强和实践。 总体上比较侧重基础理论和分布式系统的介绍,数据清洗、实时与离线融合的实践、数据分析以及将各系统串联打 ...
分类:
编程语言 时间:
2017-05-18 22:11:54
阅读次数:
225
2017-04-19 部门经理习惯用C#做数据清洗,遇到个需要验证的问题,在一个万次左右循环内对文件执行打开关闭操作,比在循环前打开文件、循环后关闭文件耗时多多少。 ...
此文已经有DF比赛平台约稿转载 写于2017年3月份大家好,我是智浪淘沙,在大数据比赛的圈子里大家喜欢称呼我为浪叫兽。 我先做一个简单的且不如意的人生轨迹介绍把,出生农村的我,对自己的才智一直是很自信的。可能是由于自己的天性,不会表达自己加不会按部就班的喜欢上学习,我小学和初中都默默无闻,成绩也不怎 ...
分类:
其他好文 时间:
2017-05-07 17:36:05
阅读次数:
507
dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法。dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参 ...
分类:
其他好文 时间:
2017-04-27 10:29:22
阅读次数:
228
在进行中文分词统计前,往往要先把爬取下来的文本中包含的一些标签、标点符号、英文字母等过滤掉,这一过程叫做数据清洗。 通过上面的代码可以去除与中文分词统计无关的内容,效果如下: ...
分类:
Web程序 时间:
2017-04-22 00:04:27
阅读次数:
182
供应链管理对于电商企业是非常重要的一个环节。健全有保障的供应链系统能够为前线的渠道分销提供源源不断地货物,保证企业能够随时随地的满足客户的需 求。但是供应链作为一个庞大的系统,在管理上需要企业颇为一些脑筋。过于臃肿的供应系统不但会增加企业的人力成本和库存成本,还会影响企业及时的仓储调 动,降低管理效 ...
分类:
其他好文 时间:
2017-04-17 12:36:52
阅读次数:
284