Mongodb亿级数据量的性能测试——转载进行了一下Mongodb亿级数据量的性能测试,分别测试如下几个项目:(所有插入都是单线程进行,所有读取都是多线程进行)1) 普通插入性能 (插入的数据每条大约在1KB左右)2) 批量插入性能 (使用的是官方C#客户端的InsertBatch),这个测的是批量...
分类:
数据库 时间:
2014-09-03 12:45:46
阅读次数:
690
一、Simhash简介 SimHash是用来网页去重最常用的hash方法,速度很快。Google采用这种算法来解决万亿级别的网页去重任务。 SimHash算法的主要思想是降维。将高维的特征向量映射成一个低维的特征向量,通过两个向量...
分类:
其他好文 时间:
2014-08-18 12:43:55
阅读次数:
249
日前,百度下发内部邮件宣布,李明远正式晋升为E-Staff成员,即百度最高决策层。李明远此次晋升,距离上次提拔为副总裁,仅仅过去11个月。
内部邮件显示,李明远之所以晋升,与其主导的移动业务所做的突出贡献有关。目前百度共有14个亿级App,其中9个来自李明远旗下。截止2014年第一季度,移动业务营收已占百度整体收入的25%以上。
30岁,25%营收,李明远挺进百度最高决策层,到...
分类:
其他好文 时间:
2014-08-12 13:48:14
阅读次数:
281
有一个需求是要在一个云监控程序中存储状态值中存储多个状态(包括可同时存在的各种异常、警告状态)使用了位运算机制在一个int型中存储。现在监控日志数据量非常大(亿级别)需要对数据按每小时、每天进行聚合,供在线报表使用。状态分了3个级别:正常(0)、警告(1)、异常(2),聚合时需要使用max选择最差的...
分类:
数据库 时间:
2014-08-08 12:25:05
阅读次数:
564
[文章作者:张宴 本文版本:v1.0 最后修改:2008.12.09 转载请注明原文链接:http://blog.zyan.cc/post/385/] 曾经在七月,写过一篇文章──《基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计》,前公司的分类信息搜索基于此架构,效果明显,甚....
分类:
其他好文 时间:
2014-07-16 19:01:06
阅读次数:
326
随着移动互联网的快速发展,千万级甚至亿级下载量的产品也出现了很多,这些产品无疑都是各个领域中的精英。之所以能够让如此多的用户安装使用产品,一方面是产品本身的优秀,包括功能上的创新或是出众的用户体验,另一外面也展现了这些企业优秀的推广能力。在如今的互联网时代,得用户者得天下的趋势开始上演的愈加强烈。很...
分类:
其他好文 时间:
2014-07-09 20:06:48
阅读次数:
156
何谓大规模并发,不同层面有不同的理解企业应用(Intranet):千级强并发,万级弱并发(在线用户),十万级用户 大型企业ERP、供应链,大型企业HR、办公OA互联网应用(Internet):百万级强并发,千万级弱并发(在线用户),亿级用户/门户网站(新浪、腾讯)平台级电子商务(阿里巴巴、淘宝网、....
分类:
其他好文 时间:
2014-06-26 14:36:59
阅读次数:
179
百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。
遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。
理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺...
分类:
其他好文 时间:
2014-06-09 14:32:39
阅读次数:
509
package com.sungeo;/** * 人民币的读法是四位一节; x仟x百x拾 x (亿) x仟x百x拾 x (万) x仟x百x拾 x * @author Administrator */public class NumToRmb {private String[] hanArr=new String[]{"零","壹","贰","叁","肆","伍","陆","柒","捌","玖"};...
分类:
其他好文 时间:
2014-06-05 04:46:57
阅读次数:
169
一个网站就像一个人,存在一个从小到大的过程。养一个网站和养一个人一样,不同时期需要不同的方法,不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。
1:积累是必不可少的
架构师不是一天练成的。...
分类:
Web程序 时间:
2014-05-11 20:23:42
阅读次数:
522