网站日志分析项目案例(一)项目介绍:http://www.cnblogs.com/edisonchou/p/4449082.html 网站日志分析项目案例(二)数据清洗:http://www.cnblogs.com/edisonchou/p/4458219.html 网站日志分析项目案例(三)统计分 ...
分类:
Web程序 时间:
2017-11-03 12:57:48
阅读次数:
225
需要做的任务是将上图类似的格式的文件进行处理,将年月日小时分别提取出来放到每行的行尾(上图已清洗好) 自己的思路是先用cut命令将每行的年月日小时提取出来,分别给一个变量,然后再循环利用sed命令将年月日小时复制到行尾 实现起来感觉有问题,因为sed命令不熟,sed -i不知道能不能实现 简单了解一 ...
分类:
系统相关 时间:
2017-11-01 13:42:08
阅读次数:
238
1、离线计算是什么? 离线计算:批量获取数据、批量传输数据、周期性批量计算数据、数据展示 代表技术:Sqoop批量导入数据、HDFS批量存储数据、MapReduce批量计算数据、Hive批量计算数据、***任务调度 1,hivesql 2、调度平台 3、Hadoop集群运维 4、数据清洗(脚本语言) ...
分类:
其他好文 时间:
2017-10-19 00:18:55
阅读次数:
282
利用数据挖掘技术进行在线学习行为研究的一般流程 流程:数据收集,数据预处理,应用数据挖掘方法,解释评估应用。 数据收集:一般有在线学习平台自动完成。 数据预处理:是对数据进行清洗并转换成适合数据挖掘的形式的过程。主要包括数据清洗,数据转换和丰富,数据整合以及数据归约等任务。 数据挖掘方法:分类,聚类 ...
分类:
其他好文 时间:
2017-10-15 18:02:05
阅读次数:
156
空间轨迹是一个(x,y)点的序列,每个点都有一个时间戳.因为轨迹通常是由传感器测量的,所以它们不可避免地会出现一些错误,需要对数据进行平滑化处理。 此外,司机绕路或者交通事故也会导致轨迹数据出现偏离,这时候我们需要对轨迹数据进行异常检测。 数据平滑化处理 过滤技术进行为了演示,我们用一个GPS记录器 ...
分类:
其他好文 时间:
2017-10-07 20:47:13
阅读次数:
1217
预处理阶段 预处理阶段主要做两件事情: 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。 二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是 ...
分类:
其他好文 时间:
2017-08-24 19:48:26
阅读次数:
182
Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤: 1.数据来源 1)加载数据 2)随机采样 2.数据清洗 0)数据统计(贯穿整个过程) 1)处理缺失值 2)层次化索引 3 ...
分类:
其他好文 时间:
2017-08-20 17:02:59
阅读次数:
300
恢复内容开始 题目要求: 数据处理第二阶段任务(必须全部用R代码实现)1.数据清洗2.获取每天的血糖日均值3.根据数据文件,选择其中的任意三天,获取在哪些时段三天都会出现高血糖的状况(按照血糖值超出9来算) R代码: 运行代码视图: 结论: 1、总的血糖日平均值:9.791199、6/2血糖平均值: ...
分类:
编程语言 时间:
2017-08-06 16:56:29
阅读次数:
184
基于python对淘宝模特个人信息进行筛选爬取,数据清洗,持久化写入mysql数据库.使用django对数据库中的数据信息筛选并生成可视化报表进行分析。数据爬取,筛选,存库:#-*-coding:utf-8-*-
importrequests
frombs4importBeautifulSoup
importsys
importre
reload(sys)
sys.set..
分类:
编程语言 时间:
2017-08-04 09:58:03
阅读次数:
328
7月30之前做了什么 监督学习的常见算法,如决策树,SVM,GLM,naive bayes,非监督算法,k-means,kNN 相关的概率论知识补充,除神经网络与深度学习外的资料收集,对脑机研究的基本了解,对整体机器学习,深度学习,数据挖掘这块宏观的认识 接下来还需要继续学习的有: 1.继续传统机器 ...
分类:
其他好文 时间:
2017-07-28 14:07:47
阅读次数:
154