码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
数据采集flume kafka
需求:采集8类日志数据,并且进入es展示: 方案制定:目前数据采集通用flume+kafka模式,所以采用原有模式,一类服务进入一个topic,然后通过logstash进行数据清洗,最后进入es进行展示。 flume采用tadir 读取数据源,memory 进行缓存,kafka进行sink a1.s ...
分类:Web程序   时间:2020-06-26 22:29:32    阅读次数:81
利用正则表达式对网络日志数据进行数据清洗
原数据: 183.49.46.228 - - [18/Sep/2013:06:49:23 +0000] "-" 400 0 "-" "-"163.177.71.12 - - [18/Sep/2013:06:49:33 +0000] "HEAD / HTTP/1.1" 200 20 "-" "DNSP ...
分类:其他好文   时间:2020-06-25 23:42:05    阅读次数:72
4-业务数据分析思维
今日默写 '''1 常用的图表有哪些,都适用哪些场景 2 数据分析的流程 3 数据清洗的流程 ''' 今日内容 常见业务指标 什么是指标 以电商数据为例分析常用的指标 如何选择业务指标 电商指标体系详细介绍 业务指标 一个衡量业务好坏的标准 了解业务: 1 公司是做什么,卖什么产品,服务对象,有哪些 ...
分类:其他好文   时间:2020-06-21 11:44:14    阅读次数:60
ch1-数据科学概述
数据科学概述 一、挑战 (一)工程实现 特征提取:对于原始数据进行处理:数据清洗、数据整合、变量归一化等,转换成能被模型使用的特征; 矩阵运算:使用算法来估算算法的模型参数;模型越复杂,需要估计的参数越多,在数学上对应着矩阵运算; 分布式机器学习:将原本在一台机器上运行的模型,改写成能在多台机器上并 ...
分类:其他好文   时间:2020-06-18 01:08:35    阅读次数:87
python学习方法总结(内附python全套学习资料)
不要再问我python好不好学了一个小学四年级的小孩子都能在科学的教学下独立完成python游戏,植物大战僵尸简单版,如果要肯花时间,接下来的网络开发也不是问题,人工智能也可以学个调包也没啥问题。。。。。所以python真的是想学就一定能学会的!!!!先聊聊互联网转行那些事儿很多人是小白,想从事或转行互联网,想以python为切入口,那么恭喜你,这可能是你离互联网工作最捷径的一条道路了,毕竟pyt
分类:编程语言   时间:2020-06-17 10:50:36    阅读次数:81
基于MySQL分析线上充值留存率
1.数据清洗 步骤: 1.查询charge_record表业务类型为充值且订单状态为成功的数据 2.将上述数据转移到本地数据库 使用如下脚本: # coding=utf-8import pymysql# 原数据库链接db1 = pymysql.connect( host='***', port=33 ...
分类:数据库   时间:2020-06-12 19:54:51    阅读次数:89
数据清洗要点
缺失值清洗: 1. 确定缺失值范围:根据缺失值范围来选择下一步操作; 2. 去除不需要的字段:直接删除该字段数据; 3. 填充:根据经验、建模预测等填充缺失值; 4. 重新获取:若信息很重要,确实率很高,可重新获取; 格式内容清洗 1. 时间、日期等,统一其格式; 2. 内容中不该存在的字符:如空格 ...
分类:其他好文   时间:2020-06-09 19:02:51    阅读次数:82
R 数据分析 代码
以下汇总了我用R写过的一些数据分析工程 不定时更新 [1] 主要涉及: 数据清洗,线性回归模型拟合,模型选择(R-squared, AIC等),树形方法(rpart(), xgboost()等) github中有详细介绍及全部代码:https://github.com/wojamesyegit/R- ...
分类:其他好文   时间:2020-05-30 21:33:25    阅读次数:100
Pandas数据清洗方法
一.重复值处理:直接删除为主。一般先处理重复行,再处理唯一值列。 以行为单位,查看重复值 df[df.duplicated()] 以行为单位,删除重复值 df.drop_duplicates() 以某列(如ID)为单位,查看重复值 df[df.duplicated('ID')] 以某列(如ID)为单 ...
分类:其他好文   时间:2020-05-26 12:03:52    阅读次数:96
MapReduce数据清
说明:数据清洗的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 已采集到日志数据存入web.log文件中,其中一条日志格式如下: 101.206.68.147 - - [18/Sep/2018:20:05:16 +0000] "HEAD / HTTP/1.2" 200 20 "-" ...
分类:其他好文   时间:2020-05-25 12:28:31    阅读次数:61
368条   上一页 1 2 3 4 5 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!