参考:http://blog.sina.com.cn/s/blog_13050351e0102xfis.html https://www.sogou.com/link?url=DOb0bgH2eKh1ibpaMGjuy bS_O7xQYLPIOogrOFmc02ueKW9M67CaVLpMY1k7w ...
分类:
编程语言 时间:
2019-04-03 16:40:21
阅读次数:
231
原数据格式: 转换的目标格式: 利用pandas包对excel表中的内容进行读取: pd.read_excel() 主要函数解读: io表格具体路径,sheetname 读取表格中的哪个Sheet,可以是整数或Sheet名称,converters 指定将读取内容转换成哪种格式 eg: convert ...
分类:
其他好文 时间:
2019-03-28 16:50:43
阅读次数:
169
数据清洗(Data Cleaning)——https://wiki.mbalib.com/wiki/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97 目录 [隐藏] 目录 1 什么是数据清洗[1] 2 数据清洗原理[2] 3 数据清洗的实现方式与范围[2] 4 数据清洗的方法 ...
分类:
其他好文 时间:
2019-03-24 10:02:24
阅读次数:
244
数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘 一、解决数据质量问题 数据的完整性,比如人的属性中缺少性别、籍贯、年龄等 数据的唯一性,比如不同来源的数据出现重复的情况 数据的权威性,比如同一个指标出现多个来源的数据,且数值不一样 数据的合法性,比如数据与常识不符,市区内开车速度到达了4 ...
分类:
其他好文 时间:
2019-03-24 09:20:44
阅读次数:
123
,使用JFinal+JSoup组合,抓取数据,数据清洗筛选,最终保存到数据库里,结构化 ...
分类:
其他好文 时间:
2019-03-17 01:15:17
阅读次数:
221
为什么需要特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 什么是特征工程 帮助我们使得算法性能更好发挥性能而已 sklearn主要用于特征工程pandas主要用于数据清洗、数据处理 特征工程包含如下3个内容: 1、特征抽取/特征提... ...
分类:
其他好文 时间:
2019-03-08 22:07:22
阅读次数:
610
一、请知晓 本文是基于Event Recommendation Engine Challenge分步解析第一,二步,需要读者先阅读前两篇文章解析 二、用户社交关系信息处理 这一步需要user_friends.csv.gz文件,我们先来看看文件内容: 代码示例结果(发现该记录了用户的所有朋友信息): ...
分类:
其他好文 时间:
2019-03-08 17:14:38
阅读次数:
206
一.缺失值 sklearn中的preprocessing下游imputer,可进官方文档参考。这里主讲pandas。 拿到数据,一般先检查是否有缺失值,用isnul()或notnull(). 再决定dropna(),还是fillna()。 1.1 检查是否有缺失值 isnull()、notnull( ...
分类:
其他好文 时间:
2019-03-07 00:52:10
阅读次数:
239
#导入pandas import pandas as pd import numpy as np #导入SqlAlchemy from sqlalchemy import create_engine if __name__ == "__main__": #建立数据库引擎 engine = creat... ...
分类:
数据库 时间:
2019-03-06 12:08:04
阅读次数:
196
一、背景与挖掘目标 相关背景自查 二、分析方法与过程 1、EDA(探索性数据分析) 1.分布分析 2.周期性分析 2、数据预处理 1.数据清洗 过滤非居民用电数据,过滤节假日用电数据(节假日用电量明显低于工作日) 2.缺失值处理 3.数据变换 以线损指标为例,可自定义为 通过这种方式,将上面各种复杂 ...
分类:
编程语言 时间:
2019-03-01 12:54:38
阅读次数:
389