,使用JFinal+JSoup组合,抓取数据,数据清洗筛选,最终保存到数据库里,结构化 ...
分类:
其他好文 时间:
2019-03-17 01:15:17
阅读次数:
221
背景与目标 在数据仓库建设过程中,数据安全扮演着重要角色,因为隐私或敏感数据的泄露,会对数据主体(客户,员工和公司)的财产、名誉、人身安全、以及合法利益造成严重损害。因此我们需要严格控制对仓库中的数据访问,即什么样的人员或者需求才可以访问到相关的数据。这就要求对数据本身的敏感程度进行安全级别划分。数 ...
分类:
其他好文 时间:
2019-03-15 19:05:18
阅读次数:
263
为什么需要特征工程(Feature Engineering) 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已 什么是特征工程 帮助我们使得算法性能更好发挥性能而已 sklearn主要用于特征工程pandas主要用于数据清洗、数据处理 特征工程包含如下3个内容: 1、特征抽取/特征提... ...
分类:
其他好文 时间:
2019-03-08 22:07:22
阅读次数:
610
一、请知晓 本文是基于Event Recommendation Engine Challenge分步解析第一,二步,需要读者先阅读前两篇文章解析 二、用户社交关系信息处理 这一步需要user_friends.csv.gz文件,我们先来看看文件内容: 代码示例结果(发现该记录了用户的所有朋友信息): ...
分类:
其他好文 时间:
2019-03-08 17:14:38
阅读次数:
206
一.缺失值 sklearn中的preprocessing下游imputer,可进官方文档参考。这里主讲pandas。 拿到数据,一般先检查是否有缺失值,用isnul()或notnull(). 再决定dropna(),还是fillna()。 1.1 检查是否有缺失值 isnull()、notnull( ...
分类:
其他好文 时间:
2019-03-07 00:52:10
阅读次数:
239
#导入pandas import pandas as pd import numpy as np #导入SqlAlchemy from sqlalchemy import create_engine if __name__ == "__main__": #建立数据库引擎 engine = creat... ...
分类:
数据库 时间:
2019-03-06 12:08:04
阅读次数:
196
一、背景与挖掘目标 相关背景自查 二、分析方法与过程 1、EDA(探索性数据分析) 1.分布分析 2.周期性分析 2、数据预处理 1.数据清洗 过滤非居民用电数据,过滤节假日用电数据(节假日用电量明显低于工作日) 2.缺失值处理 3.数据变换 以线损指标为例,可自定义为 通过这种方式,将上面各种复杂 ...
分类:
编程语言 时间:
2019-03-01 12:54:38
阅读次数:
389
一、Series 类似于一位数组的对象,第一个参数为数据,第二个参数为索引(索引可以不指定,就默认用隐式索引) 1,索引和切片 2,属性 3,去重 4,加法 索引相同的加在一起,当索引不一致的项,就用NaN填充 5,数据清洗 主要用isnull()判断值是否为空,notnull()判断值是否不为空, ...
分类:
其他好文 时间:
2019-02-21 11:03:11
阅读次数:
216
https://www.cnblogs.com/yangzailu/p/6755440.html 数据脱敏介绍 数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据 的可靠保护。这样,就可 ...
分类:
其他好文 时间:
2019-02-19 11:49:43
阅读次数:
163
pandas它含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数 ...
分类:
其他好文 时间:
2019-02-18 10:24:11
阅读次数:
190