一、程序分析 1、以只读模式读取文件到字符串 2、对字符串进行数据清洗,返回一个字典 使用正则表达式过滤掉文档中的特殊字符,把它们全部替换为空格,方便后续的分隔操作。(忽略大小写,所以全部使用小写字母) 2.1、只考虑单词频率统计 判断单词列表中的单词是否在单词频率字典中。 如果这个单词在字典中,则 ...
分类:
其他好文 时间:
2018-10-05 20:20:55
阅读次数:
254
数据清洗是一项复杂且繁琐的工作,同时也是整个数据分析过程中最为重要的环节。 在python中空值被显示为NaN。首先,我们要构造一个包含NaN的DataFrame对象。 删除表中全部为NaN的行 删除表中任何含有NaN的行 删除表中全部为NaN的列 删除表中任何含有NaN的列 注意:axis 就是” ...
分类:
其他好文 时间:
2018-09-30 12:57:50
阅读次数:
214
数据挖掘流程: (一)数据读取: 读取数据,并进行展示 统计数据各项指标 明确数据规模与要完成任务 (二)特征理解分析 单特征分析,逐个变量分析其对结果的影响 多变量统计分析,综合考虑多种情况影响 统计绘图得出结论 (三)数据清洗与预处理 对缺失值进行填充 特征标准化/归一化 筛选有价值的特征 分析 ...
分类:
其他好文 时间:
2018-09-27 00:12:50
阅读次数:
202
一、单选题(共80题) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A) A. 关联规则 ...
分类:
其他好文 时间:
2018-09-20 21:17:07
阅读次数:
221
这里利用ben的项目(https://github.com/ben519/DataWrangling/blob/master/Python/README.md),在此基础上增添了一些内容,来演示数据清洗的主要工作。 以下是一份简单的交易数据,包括交易单号,交易日期,产品序号,交易数量,单价,总价。 ...
分类:
其他好文 时间:
2018-09-18 19:15:34
阅读次数:
132
1.机器学习定义:是人工智能的一个分支。我们使用计算机设计一个系统,使它能够根据提供的训练数据按照一定的方式来学习;随着训练次数的增加,该系统可以在性能上不断的学习和改进;通过参数优化的学习模型,能够用于预测相关问题的输出 2.机器学习的一般过程:(1)数据收集 》(2)数据清洗 》(3)特征工程 ...
分类:
其他好文 时间:
2018-09-14 13:56:28
阅读次数:
160
本文来自网易云社区 原创: 蒋鸿翔 DataFunTalk 本文根据网易大数据蒋鸿翔老师DataFun Talk——“大数据从底层处理到数据驱动业务”中分享的《基于Impala平台打造交互查询系统》编辑整理而成,在未改变原意的基础上稍做整理。 以上是今天的内容大纲,第一个讲一下交互式查询的特点,在大 ...
分类:
其他好文 时间:
2018-08-30 13:20:09
阅读次数:
181
接触Python两年多了,还从来没有独立用Python完成一个项目,说来惭愧。最近因为工作需要,用Excel和oracle整理数据貌似不可行了,于是转向Python,理所当然的踩了很多坑,一一记录下来,避免以后再次入坑,毕竟不常用,好了伤疤就会忘了疼··· 业务场景: 领导拿来几个Excel,共15 ...
分类:
编程语言 时间:
2018-08-19 18:04:14
阅读次数:
183
关键词和导入 在这个速查卡中,我们会用到一下缩写: 您还需要执行以下导入才能开始: import pandas as pd import numpy as np 导入数据 输出数据 创建测试对象 用于测试的代码 查看/检查数据 选择 数据清洗 筛选,排序和分组 加入/合并 统计 以下这些都可以应用于 ...
分类:
其他好文 时间:
2018-08-15 13:29:39
阅读次数:
214
目录 一.预处理 二.缺失值的处理 三.格式的转换 四.异常值的处理 一.预处理 1.1.列名称的修改 像下面这样,我们就完成了两个列的重命名,而其余的列名保持不变 1.2.添加index 有的时候数据的index是0,1,2……这样的数字,我们需要修改为日期格式,date必须是数据里一个serie ...
分类:
其他好文 时间:
2018-08-14 00:54:08
阅读次数:
185