搜索关键字：数据脱敏 datamasker 数据漂白数据清洗，搜索到383个结果！码迷,mamicode.com！

机器学习-数据清洗

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由brzhang发表数据清洗首先，为何需要对数据进行清洗数据清洗的工作绝壁是非常枯燥的，做数据研究的的人绝对无法避开这个环节，其根本原因是因为我们从各种渠道拿到的数据可能会出现：1、不合理的数据，你比如，样本中有些人的年龄超过了120岁，楼层的高度达到了1000层，以及其他的一些非常不合理的场景。2、错误的类型，你比如，样例中，几乎所有

分类：其他好文时间：2018-11-23 20:50:10 阅读次数：209

机器学习-数据清洗

欢迎大家前往 "腾讯云+社区" ，获取更多腾讯海量技术实践干货哦~ 本文由 "brzhang" 发表数据清洗首先，为何需要对数据进行清洗数据清洗的工作绝壁是非常枯燥的，做数据研究的的人绝对无法避开这个环节，其根本原因是因为我们从各种渠道拿到的数据可能会出现： 1、不合理的数据，你比如，样本中有 ...

分类：其他好文时间：2018-11-23 20:40:38 阅读次数：186

最全的大数据入门学习路线

摘要：第一阶段:Linux课程讲解Linux基础操作,讲的是在命令行下进行文件系统的操作,这是Hadoop学习的基础,后面的所有视频都是基于linux操作的。鉴于很多学员没有linux基础,特增加该内容,保证零linux基础入门。如果你从没有使用过linux,别担心,本节内容可以让你入门。Linux ...

分类：其他好文时间：2018-11-21 16:04:51 阅读次数：222

利用python 将 mysql 数据进行抽取并清理成标准格式后存入MSSql 数据中

数据清洗

分类：数据库时间：2018-11-16 17:43:22 阅读次数：174

flume中的拦截器

Flume中的拦截器（interceptor），用户Source读取events发送到Sink的时候，在events header中加入一些有用的信息，或者对events的内容进行过滤，完成初步的数据清洗。这在实际业务场景中非常有用，Flume-ng 1.6中目前提供了以下拦截器： Timestam ...

分类：Web程序时间：2018-10-29 21:30:13 阅读次数：146

机器学习-加权采样算法简介

场景用户画像的构造中，想象一个场景：你经过辛辛苦苦抓数据，清洗数据，收集用户行为，目的就是给用户计算兴趣标签。这时候你可能会遇到一个两难的问题：如果给用户计算出兴趣标签的权重了，那应该保留多少标签呢？保留太多的话，每次召回候选集时，计算复杂度可不低，只保留少部分吧，那真是手心手背都是肉，生怕丢弃的 ...

分类：编程语言时间：2018-10-21 16:06:01 阅读次数：162

机器学习——数据清洗和特征选择

一、缺省值填充 1. 老版本用Imputer 2. 新版本用 SimpleImputer [[2. 2. 4. 1. ] [1.66666667 3. 4. 4. ] [1. 1. 1. 2.66666667] [2. 2. 3. 3. ]] 二、编码 1. 哑编码(独热编码) 2. 标签编码 3. ...

分类：其他好文时间：2018-10-15 01:18:29 阅读次数：461

数据清洗

为什么要预处理数据？数据缺失：记录为空&属性为空数据重复：完全重复&不完全重复数据错误：异常值&不一致数据不可用：数据正确但不可用如何预防脏数据？制定数据标准优化系统设计 1. 处理数据缺失：忽略该记录使用默认值使用属性平均值使用同类样本平均值预测最可能的值 2. 处理数据重 ...

分类：其他好文时间：2018-10-13 11:44:15 阅读次数：192

数据清洗和特征选择→PCA→1.算法理解

《数据清洗和特征选择→PCA→1.算法理解》PCA的理解主要是明白2个协方差矩阵的意义以及关系设原始数据矩阵X对应的协方差矩阵为C，而P是一组基按行组成的矩阵，设Y=PX，则Y为X对P做基变换后的数据。设Y的协方差矩阵为D，我们推导一下D与C的关系：而对于协方差矩阵来说，一定可以找到n个单位正交特征 ...

分类：编程语言时间：2018-10-08 15:53:31 阅读次数：180

对英文文档中的单词与词组进行频率统计

一、程序分析 1、以只读模式读取文件到字符串 2、对字符串进行数据清洗，返回一个字典使用正则表达式过滤掉文档中的特殊字符，把它们全部替换为空格，方便后续的分隔操作。（忽略大小写，所以全部使用小写字母） 2.1、只考虑单词频率统计判断单词列表中的单词是否在单词频率字典中。如果这个单词在字典中，则 ...

分类：其他好文时间：2018-10-05 20:20:55 阅读次数：254

共383条上一页 1 ... 18 19 20 21 22 ... 39 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)