昨天面阿里最后栽在一道很常见的海量数据处理上了,也怪之前没专门花时间准备这个问题。今天参考了July的博客,又反思了下自己面试时错误的思路,重新整理为下面的解答过程。 先上July的博客对类似问题的解答思路: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-25 ...
分类:
其他好文 时间:
2020-06-12 20:26:01
阅读次数:
122
恢复的实现技术 一、数据转储 1.定义 2.转储方法 ⅰ静态转储与动态转储 ⅱ海量转储与增量转储 ⅲ转储方法小结 二、登记日志文件 1.日志文件的格式和内容 ⅰ以记录为单位的日志文件内容 ⅱ以数据块为单位的日志文件 2.日志文件的作用 3.登记日志文件 三、小结 参考-《数据系统概论(第五版)》-人 ...
分类:
数据库 时间:
2020-06-12 12:50:19
阅读次数:
57
华为快服务智慧平台是牛皮还是牛B? 来到快服务论坛专区的老铁们想必对快服务有一定的了解,那么作为华为快服务统一接入分发核心的华为快服务智慧平台是怎样的存在呢?想必带着眼睛阅读的小伙伴都已经看出来了,我都说了是“核心”(第一眼没看出来的朋友也别打我,我就是单纯想皮一下,嘻嘻)。 不过话说回来,相比于快服务而言,老铁们可能对于快服务智慧平台并不是非常了解,因
分类:
其他好文 时间:
2020-06-10 09:21:59
阅读次数:
98
? 现如今每个公司都有自己的大数据平台和大数据团队,可以看出大数据建设在公司的重要地位,不管是用于做数据分析、BI还是做用于机器学习、人工智能等领域,大数据都是基础,海量数据成为了互联网公司的重要资产。 今天这一份书单,我们将推荐几本综合介绍大数据平台和技术栈的优质书籍,帮各位对大数据技术感兴趣的小 ...
分类:
其他好文 时间:
2020-06-09 23:47:55
阅读次数:
163
随着AI商业化进程的加快,更具前瞻性的海量数据集产品和高度定制化服务成为了AI基础数据服务行业的主要服务形式。这对数据服务供应商的数据交付能力提出了新的要求。 目前,数据标注行业主流的业务进行方式主要有三种:供应商转包模式、众包模式、自建团队模式。 一.转包模式 转包模式的运作方式是数据供应商接到项 ...
分类:
其他好文 时间:
2020-06-09 18:33:49
阅读次数:
79
在使用消息队列的过程中,你会遇到很多问题 比如选择哪款消息队列更适合你的业务系统? 如何保证系统的高可靠、高可用和高性能? 如何保证消息不重复、不丢失? 如何做到水平扩展? 从职业发展,保持市场竞争力的角度来看 掌握一些底层技术,深耕个人技术栈的深度,实现从“用轮子”到“造轮子”的技术提升,也是一个 ...
分类:
其他好文 时间:
2020-06-08 11:10:26
阅读次数:
116
概念 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 模型 a)Source:采集组件,用于跟数据源对接,以获取数据 b)Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据 c)Channel:传输通道组件,用于从source将数据传递到sink ...
分类:
Web程序 时间:
2020-06-07 21:04:35
阅读次数:
67
数智时代,数据量呈现爆炸式增长,根据IDC预测,到2025年,全球数据将增长61%,达到175ZB。海量数据不仅带来了数据红利,也让企业的数据系统不堪重负,没有一款性能强大的数据库引擎傍身,何以洞悉数据背后的价值? 面对海量数据,您常用的数据库系统或查询引擎有哪些?他们有哪些优势?在日常工作中遇到过 ...
分类:
数据库 时间:
2020-06-07 14:42:43
阅读次数:
115
消费者是品牌最重要的资产,如何能够更好地留存消费者是企业制胜的关键。以阿里为代表的平台也提出了要从“流量运营”向“消费者运营”的转型。在信息技术发展日新月异的今天,各大企业与平台纷纷建立了自己的大数据平台,累积了海量的数据,如何利用这些数据来洞察消费者,做好消费者运营,成为企业必修的一个课题。本文将 ...
分类:
其他好文 时间:
2020-06-07 09:17:50
阅读次数:
168
前面几章蜻蜓点水的介绍了elasticsearch、apm相关的内容。本片主要介绍怎么使用ELK Stack帮助我们打造一个支撑起日产TB级的日志监控系统 背景 在企业级的微服务环境中,跑着成百上千个服务都算是比较小的规模了。在生产环境上,日志扮演着很重要的角色,排查异常需要日志,性能优化需要日志, ...
分类:
其他好文 时间:
2020-06-06 18:13:30
阅读次数:
285