简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2014-07-19 00:09:23
阅读次数:
341
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:
系统相关 时间:
2014-07-18 19:32:48
阅读次数:
398
Schlumberger.AquaChem.2011.1.0.40.v7地下水分析工具主要用于报告生成、水化学数据管理、地下水采样和数据分析等。它拥有一个可自定义并含有各种化学参数和物理的数据库,可自由模拟、绘图、计算和分析等。针对一组水质数据,可选择多种图形从不同角度来表征地下水的水文地球化学特性...
分类:
其他好文 时间:
2014-07-18 19:27:54
阅读次数:
504
不论是做数据挖掘也好,数据分析,数据可视化也罢,就是把混乱杂糅的数据理清给人看。我经常觉得,如果不能把自己身边的数据“整理清楚”,又怎敢去折腾什么大数据呢?由于一直以来的习惯,我特别热衷于对知识、文件分类整理。例如电脑桌面一定要用fences整理;一定要建立文件夹归纳chrome浏览器的书签;收藏的...
分类:
其他好文 时间:
2014-07-18 17:35:42
阅读次数:
236
从广义上看,脏数据是指没有进行过数据预处理而直接接收到的、处于原始状态的数据;
从狭义上看,是不符合研究要求,以及不能够对其直接进行相应的数据分析。
脏数据依据不同的分析目的有不同的定义,如在常见的数据挖掘工作中,脏数据是指不完整、含噪声、不一致的数据;而在问卷分析中,脏数据则是指不符合问卷要求的数据。
开发中:
脏数据是指源系统中的数据不在给定的范围内或对...
分类:
其他好文 时间:
2014-07-18 15:14:27
阅读次数:
447
每次技术变革企业包括个人都需要做出适应,现在我们处于新一轮实际革命的时代节点上,从小数据时代到大数据时代的前叶.那么企业面对大数据需要做出什么样的变革呢?又存在什么样的挑战呢?首先,决策方式的改变,传统运作管理在变成大数据管理,越来越多的传统决策在变成基于数据分析..
分类:
其他好文 时间:
2014-07-18 13:16:00
阅读次数:
171
Python 收集Twitter时间序列数据...
分类:
编程语言 时间:
2014-07-18 11:21:15
阅读次数:
239
最近几年日志分析这方面的人才需求越来越多,主要伴随数据挖掘的快速发展而迅速增长的。碰巧又在工作中又接触到一些日志记录方面的工作,就顺便了解一下日志系统的整个流程。下面这篇文章转自百度同学的一篇文章,针对大规模日志分析,联系到hadoop,hive的解决方案,阐述的比较全面。
另外就是阿里已经开发出类似的系统odps—通过sql语言进行数据的分析处理,详情见:http://102.alibab...
分类:
其他好文 时间:
2014-07-17 20:15:30
阅读次数:
301
机器学习: 是人工智能的核心研究领域,目前把他定义为:利用经验来改善计算机系统性能。对于“经验”,实际上在计算机中,“经验”是以数据的形式存在的,所以机器学习需要对数据进行分析运用。 提高泛化能力(generalization ability)是机器学习中最重要的问题之一。泛化能力表征了机器学习.....
分类:
其他好文 时间:
2014-07-17 17:34:48
阅读次数:
248
Python 以txt格式保存和读取json数据...
分类:
编程语言 时间:
2014-07-15 12:45:39
阅读次数:
375