利用数据挖掘技术进行在线学习行为研究的一般流程 流程:数据收集,数据预处理,应用数据挖掘方法,解释评估应用。 数据收集:一般有在线学习平台自动完成。 数据预处理:是对数据进行清洗并转换成适合数据挖掘的形式的过程。主要包括数据清洗,数据转换和丰富,数据整合以及数据归约等任务。 数据挖掘方法:分类,聚类 ...
分类:
其他好文 时间:
2017-10-15 18:02:05
阅读次数:
156
空间轨迹是一个(x,y)点的序列,每个点都有一个时间戳.因为轨迹通常是由传感器测量的,所以它们不可避免地会出现一些错误,需要对数据进行平滑化处理。 此外,司机绕路或者交通事故也会导致轨迹数据出现偏离,这时候我们需要对轨迹数据进行异常检测。 数据平滑化处理 过滤技术进行为了演示,我们用一个GPS记录器 ...
分类:
其他好文 时间:
2017-10-07 20:47:13
阅读次数:
1217
预处理阶段 预处理阶段主要做两件事情: 一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。 二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是 ...
分类:
其他好文 时间:
2017-08-24 19:48:26
阅读次数:
182
Pandas是一个Python库,旨在通过“标记”和“关系”数据以完成数据整理工作,库中有两个主要的数据结构Series和DataFrame 本文主要说明完成数据整理的几大步骤: 1.数据来源 1)加载数据 2)随机采样 2.数据清洗 0)数据统计(贯穿整个过程) 1)处理缺失值 2)层次化索引 3 ...
分类:
其他好文 时间:
2017-08-20 17:02:59
阅读次数:
300
恢复内容开始 题目要求: 数据处理第二阶段任务(必须全部用R代码实现)1.数据清洗2.获取每天的血糖日均值3.根据数据文件,选择其中的任意三天,获取在哪些时段三天都会出现高血糖的状况(按照血糖值超出9来算) R代码: 运行代码视图: 结论: 1、总的血糖日平均值:9.791199、6/2血糖平均值: ...
分类:
编程语言 时间:
2017-08-06 16:56:29
阅读次数:
184
基于python对淘宝模特个人信息进行筛选爬取,数据清洗,持久化写入mysql数据库.使用django对数据库中的数据信息筛选并生成可视化报表进行分析。数据爬取,筛选,存库:#-*-coding:utf-8-*-
importrequests
frombs4importBeautifulSoup
importsys
importre
reload(sys)
sys.set..
分类:
编程语言 时间:
2017-08-04 09:58:03
阅读次数:
328
7月30之前做了什么 监督学习的常见算法,如决策树,SVM,GLM,naive bayes,非监督算法,k-means,kNN 相关的概率论知识补充,除神经网络与深度学习外的资料收集,对脑机研究的基本了解,对整体机器学习,深度学习,数据挖掘这块宏观的认识 接下来还需要继续学习的有: 1.继续传统机器 ...
分类:
其他好文 时间:
2017-07-28 14:07:47
阅读次数:
154
本文參考:http://scikit-learn.org/stable/data_transforms.html 本篇主要讲数据预处理,包含四部分: 数据清洗、数据降维(PCA类)、数据增维(Kernel类)、提取自己定义特征。哇哈哈。还是关注预处理比較靠谱。。。。 重要的不翻译:scikit-le ...
分类:
其他好文 时间:
2017-07-24 10:07:54
阅读次数:
419
数据来源? 购买(政府、阿里巴巴、数据交易所) 爬虫 数据采集(机器人、无人驾驶、人工智慧) 获得的是原始数据 什么是数据清洗? 按照需求分析,过滤出有效的完整的数据,放入数据仓库 etc 数据清洗转换 有哪些应用? 商品、 新闻推荐 信贷、个人信用 婚姻(珍爱网) 舆论检测平台 医疗(全民健康档案 ...
分类:
其他好文 时间:
2017-07-07 13:18:56
阅读次数:
149
如题:浅谈商城活动设计 标题改成“浅谈商城活动的数据库设计”可能更加合理。 文章背景 为什么要吐槽,为什么要写这篇文章 本来我在弄大数据搜索,自己玩的不亦说乎,虽然感觉数据库设计不合理,但我可以数据清洗,弄到自己的搜索引擎里,自己随便玩,所以当时感觉在烂的数据库设计和我关系不大,只要我把数据清洗好, ...
分类:
其他好文 时间:
2017-06-26 21:12:07
阅读次数:
149