码迷,mamicode.com
首页 >  
搜索关键字:数据处理    ( 4746个结果
海量数据处理方法
1.hashing适用范围:快速查找,删除的基本数据结构,通常需要总数据量可以放入内存。这里的hashing和 hashmap是不一样的概念,这里的hash指的是hashtable,可以看例子:(比较两个字符串的包含问题)问题实例: 1).海量日志数据,提取出某日访问百度次数最多的那个IP。 ...
分类:其他好文   时间:2014-07-14 15:01:28    阅读次数:227
Python 将pdf转换成txt(不处理图片)
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。 师兄推荐使用PDFMiner来处...
分类:编程语言   时间:2014-07-14 10:10:14    阅读次数:249
MySQL数据处理函数
数据处理函数 有时从数据库表中获取到的数据需要进行一些处理。如将小写字母替换为相应的大写字母。这个处理过程可以在客户机上进行,也可以在数据库上进行。数据库上进行会更高效。数据库中有相应的数据处理函数来处理这些数据,但是在SQL中使用特殊的数据处理函数会降低其可移植性。不同的DBMS系统,其数据处理函数不同。 大多数的SQL支持以下类型的函数 用于处理文本串的函数,如删除、填充...
分类:数据库   时间:2014-07-13 18:07:58    阅读次数:273
storm学习之入门篇(一)
海量数据处理使用的大多是鼎鼎大名的hadoop或者hive,作为一个批处理系统,hadoop以其吞吐量大、自动容错等优点,在海量数据处理上得到了广泛的使用。但是,hadoop不擅长实时计算,因为它天然就是为批处理而生的,这也是业界一致的共识。否则最近这两年也不会有s4,storm,puma这些实时计...
分类:其他好文   时间:2014-07-11 10:00:17    阅读次数:213
Visual Prolog 的 Web 专家系统 (3)
深入探究WEB GENI源程序 折腾WEB GENI的目的,是为了摸清它的构造设计、运行机制,为山寨出自己的专家系统外壳,积累经验,启发灵感。 为此,必须深入细致地研读源程序代码。 WEBGENI包括2个模块:geni.pro和cgitools.pro。前者是主程序,负责推理、生成网页等;后者负责相对底层的CGI数据处理。本文探究的对象,主要是geni.pro。 Visual Prol...
分类:Web程序   时间:2014-07-09 12:57:04    阅读次数:249
SAS学习笔记
一、 在SAS中进行随机抽样:1、 在实际数据处理中常常需要进行样本抽样,在实践中主要有两种情况:(1)简单无重复抽样(2)分层抽样 a.等比例分层抽样b. 不等比例分层抽样;2、SAS 中可以利用PROC suveryselect 过程实现各种抽样:其一般形式是: PROC SURVEYSELE....
分类:其他好文   时间:2014-07-06 19:07:23    阅读次数:373
POJ2139 Six Degrees of Cowvin Bacon [Floyd]
水题,随手敲过 一看就是最短路问题,a,b演同一场电影则他们的距离为1 默认所有两两原始距离无穷,到自身为0 输入所有数据处理后floyd 然后照它说的求平均分离度 再找最小的,×100取整输出 #include #include #include using namespace std; int cownum,filmnum; int film[11111][333]; int...
分类:其他好文   时间:2014-07-06 10:52:47    阅读次数:203
Oracle数据的基本操作
一、什么是Oracle         在学习DRP系统之前,很多次提到过Oracle,也了解过,那么Oracle是什么?今天我终于揭开了它的神秘面纱。         Oracle:是一个公司,当然我在这里说的是Oracle数据库,与之前学到的SQLserver一样,都是一种关系型数据库管理系统。由于Oracle对大型的数据处理快速,所以称之为企业级数据库,而SQLserver是中小型的数...
分类:数据库   时间:2014-07-03 18:01:38    阅读次数:295
读书笔记-HBase in Action-第二部分Advanced concepts-(2)Coprocessor
Coprocessor是HBase 0.92.0引入的特性。使用Coprocessor,可以将一些计算逻辑下推到HBase节点,HBase由一个单纯的存储系统升级为分布式数据处理平台。 Coprocessor分为两种:Observer和Endpoint。Observer能修改扩展已有的客户端操作功能,而Endpoint能引入新的客户端操作。 Observer Observer的作用类似于数据...
分类:其他好文   时间:2014-07-03 15:35:50    阅读次数:247
nmon
Nmon监测工具Nmon是一款面向系统管理员的调优和基准测量工具,可以用来显示关于下列方面的性能数据:处理器内存网络磁盘文件系统网络文件系统NFS)消耗资源最多的进程资源Power微分区我非常喜欢这款工具的一个地方是,它完全具有交互性,可以帮助Linux用户或系统管理员最大限度地利用这个必要的命令。...
分类:其他好文   时间:2014-07-02 22:59:21    阅读次数:308
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!