判断异常值方法:Z-Score 计算公式 Z = (X-μ)/σ 其中μ为总体平均值,X-μ为离均差,σ表示标准差。z的绝对值表示在标准差范围内的原始分数与总体均值之间的距离。当原始分数低于平均值时,z为负,以上为正。 代码演示 1 生成一个 df 1 import pandas as pd # 导 ...
                            
                            
                                分类:
其他好文   时间:
2020-02-27 13:15:49   
                                阅读次数:
675
                             
                         
                    
                        
                            
                            
                                    当爬虫或者数据清洗时,会遇到知道id、class以及name属性 来匹配信息,获取数据的时候。 以下即可,自己自行替换属性以及添加url最后改成符合自己 需求的匹配模板和匹配对象即可。需要注意的一点是,记得查看匹配对象的类型。 html = requests.get(url).texthtml =  ...
                            
                            
                                分类:
其他好文   时间:
2020-02-24 14:56:15   
                                阅读次数:
42
                             
                         
                    
                        
                            
                            
                                数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html ...
                            
                            
                                分类:
其他好文   时间:
2020-02-20 12:57:52   
                                阅读次数:
65
                             
                         
                    
                        
                            
                            
                                    一、相关知识回顾 分布式文件存储 信息源: 购买信息元(对海量数据清洗) 自营提供(限于大公司) 爬虫、抓包 信息格式:文件、文本、sql、json 分布式计算 离线批处理 MapReduce spark 实时数据流 storm spark Sqoop数据迁移:hdfs mysql flume数据上 ...
                            
                            
                                分类:
其他好文   时间:
2020-02-19 10:28:03   
                                阅读次数:
94
                             
                         
                    
                        
                            
                            
                                    功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
                            
                            
                                分类:
其他好文   时间:
2020-02-15 00:13:41   
                                阅读次数:
141
                             
                         
                    
                        
                            
                            
                                    功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, ...
                            
                            
                                分类:
其他好文   时间:
2020-02-11 00:41:47   
                                阅读次数:
66
                             
                         
                    
                        
                            
                            
                                    数据清洗之数据转换 1.日期格式数据处理 In [ ]: import numpy as np import pandas as pd In [ ]: import os os.chdir(r'F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_csv('baby_t ...
                            
                            
                                分类:
其他好文   时间:
2020-02-06 14:45:31   
                                阅读次数:
94
                             
                         
                    
                        
                            
                            
                                    昨天我将一个数据的可视化完成,以及数据清洗出来了,今天完成了数据的简单可视化,之后将进行对echarts图表的操作,(图表联动,美化图表)等操作。 今天成果展示: 饼图: 柱状图: 这两个的代码基本和之前的一样,是在原来的基础上更新的。 源代码: <%@ page language="java" c ...
                            
                            
                                分类:
其他好文   时间:
2020-02-05 18:56:12   
                                阅读次数:
87
                             
                         
                    
                        
                            
                            
                                    数据清洗之数据表处理 1. 数据常用筛选方法 In [ ]: import pandas as pd import numpy as np In [ ]: import os # 更改文件路劲 os.chdir('F:\CSDN\课程内容\代码和数据') In [ ]: df = pd.read_c ...
                            
                            
                                分类:
其他好文   时间:
2020-02-05 00:04:49   
                                阅读次数:
88
                             
                         
                    
                        
                            
                            
                                    数据清洗之文件操作 这是一个关于淘宝母婴产品的用户消费行为的数据集,然后基于这个数据集,做数据清洗 csv文件读写 In [ ]: import pandas as pd import numpy as np import os In [ ]: # 更改文件路劲 os.chdir('F:\CSDN\ ...
                            
                            
                                分类:
数据库   时间:
2020-02-04 23:53:22   
                                阅读次数:
123