码迷,mamicode.com
首页 >  
搜索关键字:数据清洗    ( 368个结果
数据清洗 | 通过 Z-Score 方法判断异常值
判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导 ...
分类:其他好文   时间:2020-02-27 13:15:49    阅读次数:675
正则之利用元素属性进行匹配
当爬虫或者数据清洗时,会遇到知道id、class以及name属性 来匹配信息,获取数据的时候。 以下即可,自己自行替换属性以及添加url最后改成符合自己 需求的匹配模板和匹配对象即可。需要注意的一点是,记得查看匹配对象的类型。 html = requests.get(url).texthtml = ...
分类:其他好文   时间:2020-02-24 14:56:15    阅读次数:42
数据清洗&模型调优
数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html ...
分类:其他好文   时间:2020-02-20 12:57:52    阅读次数:65
大数据开发:Hadoop配置
一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
分类:其他好文   时间:2020-02-19 10:28:03    阅读次数:94
11 信息化领域热词分类分析及解释 第五步按目录爬取热词
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
分类:其他好文   时间:2020-02-15 00:13:41    阅读次数:141
09 信息化领域热词分类分析及解释 第三步 将清洗完毕的热词添加百度百科解释
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
分类:其他好文   时间:2020-02-11 00:41:47    阅读次数:66
数据清洗之数据转换 日期格式、字符串、高阶函数
数据清洗之数据转换 1.日期格式数据处理 In [ ]: import numpy as np import pandas as pd In [ ]: import os os.chdir(r'F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_csv('baby_t ...
分类:其他好文   时间:2020-02-06 14:45:31    阅读次数:94
信件分析实战(五)——数据可视化
昨天我将一个数据的可视化完成,以及数据清洗出来了,今天完成了数据的简单可视化,之后将进行对echarts图表的操作,(图表联动,美化图表)等操作。 今天成果展示: 饼图: 柱状图: 这两个的代码基本和之前的一样,是在原来的基础上更新的。 源代码: <%@ page language="java" c ...
分类:其他好文   时间:2020-02-05 18:56:12    阅读次数:87
数据清洗之数据表处理 筛选 增删查改 整理 层次化索引
数据清洗之数据表处理 1. 数据常用筛选方法 In [ ]: import pandas as pd import numpy as np In [ ]: import os # 更改文件路劲 os.chdir('F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_c ...
分类:其他好文   时间:2020-02-05 00:04:49    阅读次数:88
数据清洗文件操作--csv txt文件读写、excel文件读写、数据库文件读写
数据清洗之文件操作 这是一个关于淘宝母婴产品的用户消费行为的数据集,然后基于这个数据集,做数据清洗 csv文件读写 In [ ]: import pandas as pd import numpy as np import os In [ ]: # 更改文件路劲 os.chdir('F:\CSDN\ ...
分类:数据库   时间:2020-02-04 23:53:22    阅读次数:123
368条   上一页 1 ... 5 6 7 8 9 ... 37 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!