按照我做项目的经验,来了项目,首先是分析项目的目的和需求,了解这个项目属于什么问题,要达到什么效果。然后提取数据,做基本的数据清洗。第三步是特征工程,这个属于脏活累活,需要耗费很大的精力,如果特征工程做的好,那么,后面选择什么算法其实差异不大,反之,不管选择什么算法,效果都不会有突破性的提高。第四步... ...
分类:
其他好文 时间:
2016-08-02 19:11:45
阅读次数:
211
1、数据分析步骤 2 常用指标:平均数,绝对数与相对数,百分比与百分点,频数与频率,比例与比率,倍数与番数,同比与环比 3 常用数据分析方法论 (1)PEST分析法 (2)5W2H (3) 逻辑树分析法(要素化、框架化 、关联化) (4)4p营销理论 (5)用户行为理论 4、数据处理的内容:数据清洗 ...
分类:
其他好文 时间:
2016-07-29 20:58:59
阅读次数:
259
Data cleaning[edit] Once processed and organized, the data may be incomplete, contain duplicates, or contain errors. The need for data cleaning will a ...
分类:
其他好文 时间:
2016-07-09 07:03:59
阅读次数:
270
知识点: 单选题、多选题录入 分析前的数据清洗,包括删除重复记录、异常值、逻辑校验 总体和样本分布结构不一致的情况下的数据加权 相关问题分析时的交叉表 1、项目背景 2、问卷录入 单选题的定义: 当定义了变量的值,如:1=“男”,2=“女”,在录入时可以通过“显示指标签”图标来通过下拉框选择的方法“ ...
分类:
其他好文 时间:
2016-07-04 18:34:22
阅读次数:
152
L1正则化和L2正则化的区别:L1起截断作用,L2起缩放作用(不让参数θ过大) 数据和特征处理 数据清洗 正负样本不平衡的处理方法:上采样,下采样,修改损失函数 数值型特征:幅度调整,归一化,离散化 类别型特征:one-hot 编码 组合特征 文本特征中的TF-IDF:TF(t)=(t在当前文中出现 ...
分类:
其他好文 时间:
2016-06-29 20:40:42
阅读次数:
501
本文介绍logistic回归,和改进算法随机logistic回归,及一个病马是否可以治愈的案例。例子中涉及了数据清洗工作,缺失值的处理。 一 引言 1 sigmoid函数,这个非线性函数十分重要,f(z) = 1 / (1 + e^(-z) ), 画图如下: 这个函数可以很好的把数轴上的值映射到0, ...
分类:
其他好文 时间:
2016-06-25 23:00:12
阅读次数:
511
先对其进行介绍: 数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。[1] 数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为 ...
分类:
其他好文 时间:
2016-06-22 21:54:11
阅读次数:
204
目录 前言 XIII 第1章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数 ...
分类:
其他好文 时间:
2016-06-14 23:34:52
阅读次数:
259