1、从set/map谈到hashtable/hash_map/hash_set稍后本文第二部分中将多次提到hash_map/hash_set,下面稍稍介绍下这些容器,以作为基础准备。一般来说,STL容器分两种: 序列式容器(vector/list/deque/stack/queue/heap), 关...
分类:
编程语言 时间:
2015-03-17 15:40:48
阅读次数:
231
好吧,虽然加密也被reject了,但是既然看了这些天,就把一些理解神马的写上来好啦~ 数据场景是介个样子的: 假如我有海量的数据用第三方的数据库存储,为了保证数据的安全性,我需要对数据进行加密。按照传统的逻辑,要检索存储在第三方的加密数据,需要把数据从第三方下载过来,解密后再检索,这种方式仅...
分类:
其他好文 时间:
2015-03-14 18:32:30
阅读次数:
429
作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日说明:本文分为俩部分,第一部分为10道海量数据处理的面试题,第二部分为10个海量数据处理的方法总结。有任何问题,欢迎交流、指正。出处:http://blog.csdn.net/v_JULY_v。第一部分、十道海量数据处...
分类:
编程语言 时间:
2015-03-14 16:51:17
阅读次数:
233
上千万或上亿的数据,现在的机器的内存应该能存下。所以考虑采用hash_map/搜索二叉树/红黑树等来进行统计次数。然后就是取出前N个出现次数最多的数据了,可以用第2题提到的堆机制完成。
#include "IOSTREAM"
#include
#include
#include
using namespace std;
int main(void)
{
//海量待统计数据
char...
分类:
编程语言 时间:
2015-03-14 08:29:20
阅读次数:
412
最近做的一个项目需要跟Kafka打交道,学习了很多相关知识,就到这里来汇总一下。kafka是一个传递消息的系统,原本是用来快速记录海量log的,现在也经常用作消息队列。它主要由三个部分组成,producer,broker以及consumer。producer发布消息,broker存储消息,consu...
分类:
其他好文 时间:
2015-03-14 06:05:48
阅读次数:
147
1.先说说什么是Hadoop? 个人理解:一个分布式文件存储系统+一个分布式计算框架,在其上还有很多的开源项目来丰富他的功能,如Hbase,hive等等。官方:Hadoop是一个用Java编写的开源系统,可安排在大规模的计算平台上,从而提高计算效率。本质上它只是一个海量数据处理平台架构。2.Had....
分类:
其他好文 时间:
2015-03-13 22:16:15
阅读次数:
213
收集前人的经验。加速学习,解决工作中的难题。一、代码优化(包括sql语句的优化), 合理的使用索引,避免整表查询。二、日常海量数据处理我用文件缓存,文件缓存分两种,第一种是最常见的生成html静太文件,除非数据有变动不然是不会查询数据库,其次.html文件更容易被搜索引擎收录,生成静太缓存也是有讲究...
分类:
Web程序 时间:
2015-03-12 22:08:30
阅读次数:
131
百度指数是用以反映关键词在过去30天内的网络曝光率及用户关注度!它能形象地反映该关键词的每天的变化趋势! 百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务,用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注度”。您可以发现、共享和挖掘互联网上最有价值的信息和资讯,直接、...
分类:
其他好文 时间:
2015-03-12 14:51:52
阅读次数:
135
引言近段时间以来,通过接触有关海量数据处理和搜索引擎的诸多技术,常常见识到不少精妙绝伦的架构图。除了每每感叹于每幅图表面上的绘制的精细之外,更为架构图背后所隐藏的设计思想所叹服。个人这两天一直在搜集各大型网站的架构设计图,一为了一饱眼福,领略各类大型网站架构设计的精彩之外,二来也可供闲时反复琢磨体会...
分类:
Web程序 时间:
2015-03-11 21:27:12
阅读次数:
167
LDAP注入和SQL注入,原理上非常相似
但是LDAP往往包含很多的数据,相对来说,危害性更加大。2、一些案例这些案例不一定是LDAP造成的,但是性质基本上差不多
WooYun: 腾讯某服务配置不当内部海量敏感信息泄露!
http://www.wo...
分类:
其他好文 时间:
2015-03-11 12:56:52
阅读次数:
212