这几天一直在帮一个博士做实验,负责的是数据处理这部分的东西。因为用python做数据处理时会时常做一些文件操作,所以我学习了一下Python的文件操作。今天刚好有空,就把东西总结一下。 一、打开文件 首先,要对文件进行操作需要打开文件,这里用到了open函数。 f = open(filen...
分类:
编程语言 时间:
2014-07-19 17:23:39
阅读次数:
224
CSDN开源夏令营 百度数据可视化实践 ECharts(2) ,ECharts三种引入方式的详细讲解!!! 数据可视化 ECharts开发必备知识...
分类:
其他好文 时间:
2014-07-18 18:05:06
阅读次数:
418
不论是做数据挖掘也好,数据分析,数据可视化也罢,就是把混乱杂糅的数据理清给人看。我经常觉得,如果不能把自己身边的数据“整理清楚”,又怎敢去折腾什么大数据呢?由于一直以来的习惯,我特别热衷于对知识、文件分类整理。例如电脑桌面一定要用fences整理;一定要建立文件夹归纳chrome浏览器的书签;收藏的...
分类:
其他好文 时间:
2014-07-18 17:35:42
阅读次数:
236
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确...
分类:
其他好文 时间:
2014-07-18 17:33:40
阅读次数:
246
一、GDataXMLNode说明GDataXMLNode是Google提供的用于XML数据处理的类集。该类集对libxml2--DOM处理方式进行了封装,能对较小或中等的xml文档进行读写操作且支持XPath语法。使用方法: 1、获取GDataXMLNode.h/m文件,将GDataXMLNode....
分类:
移动开发 时间:
2014-07-18 15:31:09
阅读次数:
210
从广义上看,脏数据是指没有进行过数据预处理而直接接收到的、处于原始状态的数据;
从狭义上看,是不符合研究要求,以及不能够对其直接进行相应的数据分析。
脏数据依据不同的分析目的有不同的定义,如在常见的数据挖掘工作中,脏数据是指不完整、含噪声、不一致的数据;而在问卷分析中,脏数据则是指不符合问卷要求的数据。
开发中:
脏数据是指源系统中的数据不在给定的范围内或对...
分类:
其他好文 时间:
2014-07-18 15:14:27
阅读次数:
447
Python 收集Twitter时间序列数据...
分类:
编程语言 时间:
2014-07-18 11:21:15
阅读次数:
239
-“如果我们说另一种不用的语言,那么我们就会发觉一个有些不同的世界”
1. 用引用操纵对象
每种编程语言都有自己的数据处理方式。有些时候,程序员必须时刻留意准备处理的是什么类型。您曾利用一些特殊语法直接操作过对象,或处理过一些间接表示的对象吗(C或C++里的指针)?
所有的这一切在JAVA里都得到了简化。在JAVA里一切都被视为对象,尽管是一切都被看成对象,但操纵的标识...
分类:
编程语言 时间:
2014-07-18 11:06:11
阅读次数:
200
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301
机器学习: 是人工智能的核心研究领域,目前把他定义为:利用经验来改善计算机系统性能。对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习需要对数据进行分析运用。 提高泛化能力(generalization ability)是机器学习中最重要的问题之一。泛化能力表征了机器学习.....
分类:
其他好文 时间:
2014-07-17 17:34:48
阅读次数:
248