从广义上看,脏数据是指没有进行过数据预处理而直接接收到的、处于原始状态的数据;
从狭义上看,是不符合研究要求,以及不能够对其直接进行相应的数据分析。
脏数据依据不同的分析目的有不同的定义,如在常见的数据挖掘工作中,脏数据是指不完整、含噪声、不一致的数据;而在问卷分析中,脏数据则是指不符合问卷要求的数据。
开发中:
脏数据是指源系统中的数据不在给定的范围内或对...
分类:
其他好文 时间:
2014-07-18 15:14:27
阅读次数:
447
Python 收集Twitter时间序列数据...
分类:
编程语言 时间:
2014-07-18 11:21:15
阅读次数:
239
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301
机器学习: 是人工智能的核心研究领域,目前把他定义为:利用经验来改善计算机系统性能。对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习需要对数据进行分析运用。 提高泛化能力(generalization ability)是机器学习中最重要的问题之一。泛化能力表征了机器学习.....
分类:
其他好文 时间:
2014-07-17 17:34:48
阅读次数:
248
一直想写点关于数学方面的blog,这对于数据挖掘分析,NLP处理等都有着比较重要的作用,之前在CSDN上想写点HMM方面的文章,一直没写成,最近几天终于抽点时间完成了HMM的文章,加以整理,遂有这个系列文章 首先是对HMM模型的介绍。 传统的马尔可夫模型(Markov Model)主要描述了...
分类:
其他好文 时间:
2014-07-16 21:43:13
阅读次数:
230
Python 以txt格式保存和读取json数据...
分类:
编程语言 时间:
2014-07-15 12:45:39
阅读次数:
375
各种各样的事例表明,细心对于某种岗位的重要新。原文来自:【数据化管理:【数据挖掘的重要性——从林彪的一个故事谈起】有时候数据分析与挖掘并不需要高深的理论和高端的分析工具,仅仅需要一颗善于发现的大脑和永远不放过细节的心!via@萧秋水】
分类:
其他好文 时间:
2014-07-14 15:00:18
阅读次数:
160
1.简介数据挖掘、机器学习这些字眼,在一些人看来,是门槛很高的东西。 诚然,如果做算法实现甚至算法优化,确实需要很多背景知识。但事实是,绝大多数数据挖掘工程师,不需要去做算法层面的东西。他们的精力,集中在特征提取, 算法选择和参数调优上。那么,一个可以方便地提供这些功能的工具,便是十分必要的了。而w...
分类:
其他好文 时间:
2014-07-14 14:55:50
阅读次数:
295
人们对决策树的使用决策树常常被应用于数据挖掘之中,是最基础的算法之一,几乎每一个学习过数据挖掘的朋友都知道决策树。但还原决策树本来的用途,它被用于一些决策或决定时,还是比较实用和直观的。其树型结构指导人们进行在面对某个决策时,先关注其中几个最重要的方向,这几方向定下来后,再细分下去。近年来泳道路,思...
分类:
其他好文 时间:
2014-07-13 19:11:57
阅读次数:
236