一个中等水平的数据科学家每天都要处理大量的数据。一些人说超过60%到70%的时间都用于数据清理、数据处理及格式转化,以便于在之后应用机器学习模型。 这篇文章的重点便在后者—— 应用机器学习模型(包括预处理的阶段)。此文讨论到的内容来源于我参加的过的数百次的机器学习竞赛。请大家注意这里讨论的方法是大体 ...
分类:
其他好文 时间:
2018-11-10 00:56:05
阅读次数:
247
关于数据科学家工作的落地和融入,王老师从四个方面讲解,分别是如何判断一个公司的管理水平,二是在宏观上数据团队提供什么,第三是如何判断公司内部数据团队的地位和发展趋势,第四是在微观上,数据科学家的工作集成。在讲到关于项目管理时,以项目管理为例,计划、执行、评估分为三步,计划有没有列出来,需要向直属领导... ...
分类:
其他好文 时间:
2018-11-08 18:35:06
阅读次数:
247
摘要:作为一门对数学和计算机都有较高要求的一门交叉学科,从事大数据是有一定门槛的,但相对于10年以上的职业生涯(国外顶尖数据科学家50-60岁仍然十分活跃),预备半年的时间来学习这个最炙手可热的技能还是很划算的。
分类:
其他好文 时间:
2018-11-05 17:28:44
阅读次数:
180
机器学习(ML)模型中有许多移动部件必须连接在一起才能使ML模型成功执行并生成结果。将ML过程的不同部分捆绑在一起的过程称为管道。对于数据科学家来说,管道是一个概括但非常重要的概念。在软件工程中,人们构建管道来开发从源代码到部署的软件。类似地,在ML中,创建了一个管道,以允许数据从其原始格式流向一些 ...
分类:
系统相关 时间:
2018-11-03 14:11:20
阅读次数:
189
我写这篇文章的目的,是为参加数据科学社区Kaggle简单指引。 大多数初学者无从下手,因为他们使用自己不理解的库和算法,就像陷入黑盒。 本教程将通过提供一个框架来教您如何像数据科学家一样思考与编码,从而为您提供数据分析的领域优势。 目录: 一 、引言:数据科学家如何打败赔率 二 、 数据科学框架综述 ...
分类:
其他好文 时间:
2018-11-01 17:00:05
阅读次数:
376
一、Python 数据框就是典型的关系型数据库的数据存储形式,每一行是一条记录,每一列是一个属性,最终构成表格的形式,这是数据科学家必须熟悉的最典型的数据结构。 1.构建数据框 2.读取csv文件 3.统计描述 二、R语言 R语言中自带data.frame数据框格式,tidyverse包中所使用的t ...
分类:
编程语言 时间:
2018-11-01 12:03:37
阅读次数:
222
https://www.jianshu.com/p/260fd0f9ada6
分类:
其他好文 时间:
2018-10-24 17:45:28
阅读次数:
98
Python数据科学-技术详解与商业实践(八大案例)网盘地址:https://pan.baidu.com/s/13QrR_5Er6LgWCWzSb7qOrQ提取码:s7vw备用地址(腾讯微云):https://share.weiyun.com/5y4F4rX密码:afinqx养成式数据科学家培养模式,针对入门难、头绪乱、进步缓慢、缺乏业界经验、面试恐惧等问题提供解决方案。第一讲:数据科学家的武器库
分类:
编程语言 时间:
2018-10-18 17:00:36
阅读次数:
229
点进来的同学,大部分是为了学编程而来的,这里面有一部分学编程是出于兴趣爱好,但大部分都是为了找工作或跳槽吧!其中有些人也许是觉得难,也许是遇到瓶颈,也许是因为惰性,总之半途而废了。在这新一年的开始,我想对你说一句:不要轻易放弃,如果你觉得艰难,说明你正在走上坡路!在为你讲为什么要学习大数据前给分享一 ...
分类:
其他好文 时间:
2018-10-06 13:28:20
阅读次数:
127
本文作者是一位软件工程师,他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究,最终将生产实践环节需要注意的问题总结为本文所列的20条建议。 Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用 ...
分类:
Web程序 时间:
2018-09-09 18:10:05
阅读次数:
173