前言最近一年使用Elasticsearch完成亿级别日志搜索平台「ELK」,亿级别的分布式跟踪系统。
分类:
其他好文 时间:
2018-06-24 21:39:19
阅读次数:
280
第一阶段: 1,一定要正确设计索引 2,一定要避免SQL语句全表扫描,所以SQL一定要走索引(如:一切的 > < != 等等之类的写法都会导致全表扫描) 3,一定要避免 limit 10000000,20 这样的查询 4,一定要避免 LEFT JOIN 之类的查询,不把这样的逻辑处理交给数据库 5, ...
分类:
数据库 时间:
2018-06-21 11:22:01
阅读次数:
208
本文的架子参考张开套的《亿级流量网站架构核心技术》这本书分为四个部分:指导原则,高可用,高并发,实践案例。这篇文章说一说前三个部分,大部分内容都是我自己的思考,书只作为参考。 指导原则 高可用 事前 副本技术 隔离技术 配额技术 探知技术 预案 事发 监控和报警 事中 降级 回滚 failXXX系列 ...
分类:
Web程序 时间:
2018-06-15 22:35:28
阅读次数:
173
写在前面:前一篇文字<<基于MQTT协议谈谈物联网开发-华佗写代码>>主要叙述了MQTT协议的编解码以及基于MQTT协议的一些常见应用场景,并以一个简单的消息推送系统作为例子阐述具体MQTT应用的开发,这篇文字继续叙述上述应用中Mqtt Broker部分的实现. 1.Mqtt Broker开源产品: ...
分类:
其他好文 时间:
2018-06-08 14:23:46
阅读次数:
500
最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息。 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户 ...
分类:
其他好文 时间:
2018-05-29 17:11:15
阅读次数:
277
摘要 以React技术栈为主分享我们在大规模企业应用建设过程中遇到的问题,对前后端分离架构的思考,前后端分离的技术方案,前后端分离过程中的实践经验,前后端分离带来的效果与价值,以及目前存在的问题与未来可能的尝试。 应用的现状 我们的应用拥有接近100w的用户、3K+的QPS、5亿+的单表数据、万亿级 ...
分类:
其他好文 时间:
2018-05-17 18:20:29
阅读次数:
143
本篇主要讲具体怎么落地实践,手把手建立一套亿级ELK日志平台。具体发展过程可以参考上篇「从ELK到EFK演进」,废话不多说,老司机们座好了,我们准备发车了
分类:
其他好文 时间:
2018-05-16 22:39:23
阅读次数:
231
对于一个千万级的大表,现在可能更多的是亿级数据量,很多人第一反应是各种切分,可结果总是事半功倍,或许正是我们优化顺序的不正确。下面我们来谈谈怎样的优化顺序可以让效果更好。 MySQL数据库一般都是按照下面的步骤去演化,成本也是由低到高: 1/ SQL优化 1. 避免使用select * 返回结果过多 ...
分类:
数据库 时间:
2018-05-14 16:54:27
阅读次数:
167
一、前言 Spark作为大数据计算引擎,凭借其快速、稳定、简易等特点,快速的占领了大数据计算的领域。本文主要为作者在搭建使用计算平台的过程中,对于Spark的理解,希望能给读者一些学习的思路。文章内容为介绍Spark在DataMagic平台扮演的角色、如何快速掌握Spark以及DataMagic平台 ...
分类:
其他好文 时间:
2018-05-11 17:23:04
阅读次数:
169
挑战 1-gram 的数据集在硬盘上可以展开成为 27 Gb 的数据,这在读入 python 时是一个很大的数据量级。Python可以轻易地一次性地处理千兆的数据,但是当数据是损坏的和已加工的,速度就会变慢而且内存效率也会变低。 总的来说,这 14 亿条数据(1,430,727,243)分散在 38 ...
分类:
编程语言 时间:
2018-05-08 22:12:42
阅读次数:
233