第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文...
分类:
编程语言 时间:
2014-08-03 17:33:25
阅读次数:
345
千万级的注册用户,千万级的帖子,nTB级的附件,还有巨大的日访问量,大型网站采用什么系统架构保证性能和稳定性?
首先讨论一下大型网站需要注意和考虑的问题。
数据库海量数据处理:负载量不大的情况下select、delete和update是响应很迅速的,最多加几个索引就可以搞定,但千万级的注册用户和一个设计不好的多对多关系将带来非常严重的性能问题。另外在高UPDATE的情况下,更新一个...
分类:
Web程序 时间:
2014-08-03 15:21:45
阅读次数:
1007
1. Bloom-Filter算法简介Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在于集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Bloom ...
分类:
其他好文 时间:
2014-08-03 15:01:15
阅读次数:
207
一、Bloom?filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有h...
分类:
其他好文 时间:
2014-08-01 16:21:22
阅读次数:
286
作为一个中小型网站开发者,淘宝API的开放大大缩短了网站的开发周期和运作效率,面对海量的数据,开发者只要仔细阅读开发文档,熟悉相应的接口,就可以把数据导入自己的网站,这样就不必望洋兴叹了。
目前淘宝TOP的API接口正日益完善,但相应的接口和开发文档还不是很全,经过了3天的仔细研究,今晚上终于把淘宝API的调用弄明白了。不是很完善,文中如有瑕疵,还望批评指正,好,闲话到此为止,请看正文。本文...
总看一些书介绍数据库方面的周边技巧,有点腻。近期买了《海量数据库解决方式》这本书来看,已经读完了,在内容方面安排还是比較有特色,内容既有国外大作那种功底知识介绍,又有国内书籍那种周边技巧介绍,感觉出不一样的风格。尽管书的题目是海量数据库解决方式,可是读完后我丝毫感觉不到海量的思想,很多其它是数据库....
分类:
数据库 时间:
2014-07-31 20:26:27
阅读次数:
211
order by,distribute by,sort by,cluster by ?查询使用说明 // 根据年份和气温对气象数据进行排序,以确保所有具有相同年份的行最终都在一个reducer分区中
// 一个reduce(海量数据,速度很慢)
select year, te...
分类:
其他好文 时间:
2014-07-30 21:00:44
阅读次数:
198
如今,互联网的飞速发展将平民化、社交化和商业化的数据高度集中,推动着海量数据的“野蛮生长”,作为多人同时“作业”的典型平台,上海纵游正在面临一个前所未有的机遇。同时,诸多挑战也随之而来。DeNA原本的主要业务覆盖在总部日本与北美地区,近年来随着旗下《热血兄弟》、《传世三国》等游戏的盛行,韩国、中国等地的市场格局正在被不断突破,当地游戏用户数量呈现出阶梯式增长。如何为这些用户提供稳定的游戏平台,并在第一时间传递公司的最新游戏资源成为上海纵游首先需要解决的问题。作为上市游戏公司,上海纵游对于合作伙伴的选择十分谨...
分类:
其他好文 时间:
2014-07-30 17:39:14
阅读次数:
272
一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求...
分类:
其他好文 时间:
2014-07-30 09:59:03
阅读次数:
358
目前看:网站的开发瓶颈1.带宽-云计算,云终端(视屏网站)2.数据库-网站大并发,海量存储(sina,sohu)话题:怎样做,我们的数据库会更快!数据库分类:关系型数据库:mysql、oracle、sqlserver、db2、informix非关系型数据:面向集合,面向对象…nosql数据库:mongodbPHP项目u数据库优..
分类:
数据库 时间:
2014-07-30 03:23:14
阅读次数:
479