bloomFilter是70年代提出来的一个利用时间,错误率来换取空间的应用。应用在大数据量的情况下,比如爬虫抓取的大量url,用来判断哪些url是已经爬取过的。m =>使用的散列长度,这个值通常用来创建BitSet的长度,java.util.BitSetn =>待散列的字符串的个数。k =>使用的...
分类:
其他好文 时间:
2014-08-28 12:52:49
阅读次数:
159
随着大数据的不断发展,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。现今的计算机体系结构在数据存储方面要有庞大的水平扩展性,而NoSQL也正是致力于改变这一现状。目前Google的 BigTable和Amazon 的Dynamo使用的就是NoSQL型数据库,本文介绍了...
分类:
数据库 时间:
2014-08-28 09:36:49
阅读次数:
308
n最大为2000000000(不知为什么OJ上是1000),若为判断2000000000是素数,则必有一个素数在sqrt(n)内,求出这个范围 的所有素数,其比最大数据小的n'的sqrt(n')也在这个范围 内。#include #include #include #include #include...
分类:
其他好文 时间:
2014-08-27 21:42:38
阅读次数:
262
背景: 在大数据领域, 由于各方面的原因. 有时需要自己来生成测试数据集, 由于测试数据集较大, 因此采用Map/Reduce的方式去生成. 在这小编(mumuxinfei)结合自身的一些实战经历, 具体阐述下生成测试数据集的Map/Reduce程序该如何写?场景构造: 假设某移动电信行业的...
分类:
其他好文 时间:
2014-08-27 20:32:38
阅读次数:
432
原文地址:https://www.byvoid.com/blog/fast-readfile/在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式。相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据。还有人说Pascal的read语...
分类:
编程语言 时间:
2014-08-27 20:28:58
阅读次数:
317
大数据时代的图书出版是近两年的热点,8月27日即将在北京开幕的第21届北京图博会之前,不少出版界人士已纷纷开始筹备热议。那么,大数据时代,对学 术出版乃至社会科学研究有什么样的影响及意义呢?中国传媒大学调查统计研究所所长沈浩近日在第十五届全国皮书年会上,就相关话题做了专题报告。 沈浩认为,大...
分类:
其他好文 时间:
2014-08-27 18:04:58
阅读次数:
199
自从三大数据库厂商甲骨文、IBM和微软在2011年不约而同地宣布支持Hadoop后,在企业级市场上,Hadoop基本上也充当着大数据的代名词。时至今日,这种状况或许应该改变了。NoSQL日渐重要 由于Hadoop的高调,很少有人注意到,在宣布支持Hadoop的同一年,这三大关系型数据库厂商还分...
分类:
其他好文 时间:
2014-08-27 18:04:38
阅读次数:
127
大数据是云计算发展的自然结果,可以说大数据是广义云计算的一部分。所以,我们可以回到云计算领域去探讨大数据对数据中心场地基础设施的影响。有很多资深 的数据中心专家会有这样的感觉,如果把他带到一个正在运行的数据中心里而不告知任何有效信息,面对一排排的机柜,他根本无法分辨这是“云数据中心”还是 “非云数....
分类:
其他好文 时间:
2014-08-27 18:03:48
阅读次数:
621
一、GET和POST区别(参考Servlet&JSP学习笔记)中method属性默认为GET。1、使用POST的情况GET跟随URL之后,请求参数长度有限,过长的请求参数或文件上传这类大数据的操作,用POST。GET请求参数会出现在地址栏,敏感信息或保密信息,用POST。有些浏览器根据地址栏缓存数据...
分类:
编程语言 时间:
2014-08-27 16:08:18
阅读次数:
278
当前互联网金融如火如荼,除了为数众多的互联网公司推出的各种“宝宝”类产品外,p2p、众筹等在街头巷议中也总是被人津津乐道。当然,在互联网金融一片风光的形势下,各大不甘寂寞的金融公司也是纷纷试水,由其推出的各种创新产品和服务更是层出不穷。 一位专家表示,从去年开始,陆续有基金公司和互联网企业就大数据....
分类:
其他好文 时间:
2014-08-27 14:30:57
阅读次数:
155