码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
Pandas的对齐运算和函数
Pandas的对齐运算 是数据清洗的重要过程,可以按索引对齐进行运算,如果没对齐的位置则补NaN,最后也可以填充NaN Series的对齐运算 1. Series 按行、索引对齐 s1 = pd.Series(range(10, 20), index=range(10)) s2 = pd.Serie ...
分类:其他好文   时间:2020-03-29 19:31:40    阅读次数:90
数据清洗
数据清洗一是为了解决数据质量问题,二是让数据更加适合做挖掘。数据清洗, 是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。在这里,小编跟大家介绍一下数据清洗的步骤和方法。 一、检查数据的质量 数据的完整性, ...
分类:其他好文   时间:2020-03-27 21:45:55    阅读次数:105
pandas常用数据清洗方法
数据预处理常用函数 df.duplicated() :判断各行是重复,False为非重复值。 df.drop_duplicates():删除重复行 df.fillna(0):用实数0填充na df.dropna():按行删除缺失数据,使用参数axis=0;按列删除缺失值,使用参数axis=1,how ...
分类:其他好文   时间:2020-03-27 17:17:54    阅读次数:128
讲一下数据分析有哪些步骤,在你做项目的过程中哪个步骤需要花费的时间最久?为什么?
数据分析的步骤 1.定义问题,明确需要解决的需求是什么。 2.问题拆分。对于最终需要解决或探索的问题,进行细分,拆分成不同层面的问题。 3.确定指标。根据不同的细分问题,确定需要探索的指标 4.数据收集。收集整理分析项目所需的数据。 5.数据清洗。删除重复数据,异常值,缺失值处理她,特征筛选,数据归 ...
分类:其他好文   时间:2020-03-20 16:58:08    阅读次数:99
Graylog2进阶之获取nginx来源IP的地理位置信息
如果你们觉得graylog只是负责日志收集的一个管理工具,那就too young too naive 。日志收集只是graylog的最最基础的用法,graylog有很多实用的数据清洗和处理的进阶用法。 从这期开始我将陆续向大家介绍一些关于graylog的进阶用法,这次讲一下如何通过Geoip库莱获取 ...
分类:其他好文   时间:2020-03-17 19:10:50    阅读次数:72
Linux-Bigdata
总结一下大数据开发基本常识: JDK(做java开发必备的开发工具包) Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs Sqoop(数据迁移,清洗) Kettle(数据清洗,格式转换) Hive(基于Hadoop的数据仓库,并不是数据库,需要安 ...
分类:系统相关   时间:2020-03-15 22:17:01    阅读次数:90
2020/3/13-大数据应用极限测试每日总结
砍柴ing 今天主要进行数据清洗及处理 # -*- coding: gbk -*- import json import pymysql import jieba.analyse ##生成三个表:用来做地图可视化 ##表province:省:项目数 ##表city:市:项目数 ##表contie:县 ...
分类:其他好文   时间:2020-03-15 16:25:44    阅读次数:84
数据清洗(添加省市区)
利用python为地名匹配省市区, 设计思想:利用百度api实现定位经纬度,然后再通过经纬度匹配省市区 1.从文本中读取地点名称 #提取地区 def diqu(): f = codecs.open('kjcg.txt', mode='r', encoding='utf-8') # 打开txt文件,以 ...
分类:其他好文   时间:2020-03-13 01:14:43    阅读次数:226
大数据分析处理基本流程
大数据分析处理基本流程 数据准备 数据获取(爬虫,统计) 数据清洗(获得想要的数据,去除无用的相关数据) 特征工程 特征提取 比如我爬下网页,网页中有图片,视频,文本信息,url等等之类的特征消息 特征选择 网页保存这学生的信息,我想要计算每个学生的BMI(身体质量指数),而这类信息是在网页中的文本 ...
分类:其他好文   时间:2020-03-07 09:34:06    阅读次数:186
Kettle的使用——大数据清洗技术
参考德拓视频学习:http://113.31.104.47/portal/#/course/courseDetail/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972 kettle安装:下载包直接解压 ...
分类:其他好文   时间:2020-03-02 00:35:39    阅读次数:798
368条   上一页 1 ... 4 5 6 7 8 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!