Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统。Java实现,插件丰富,模块分明。 数据流模型:Source-Channel-Sink 事务机制保证了消息传递的可靠性 一、基本组件 Event:消息的基本单位,有header和body组成。header是键值对的形式,bod ...
分类:
Web程序 时间:
2019-09-21 21:36:06
阅读次数:
148
一、什么是大数据 大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 二、大数据产生的阶段 (1)、第一次信息化浪潮:第一次个人计算机pc开始普及。 (2) ...
分类:
其他好文 时间:
2019-09-21 21:09:59
阅读次数:
108
大数据 概述 大数据是新处理模式才能具备更多的决策力,洞察力,流程优化能力,来适应海量高增长率,多样化的数据资产。 大数据面临的问题 怎么存储海量数据(kb,mb,gb,tb,pb,eb,zb) 怎么对数据进行降噪处理(对数据进行清洗,使得数据变废为宝,提取有用的数据,减少不必要的数据资源空间的释放 ...
分类:
其他好文 时间:
2019-09-21 14:57:06
阅读次数:
97
文本挖掘 1. 文本挖掘 1.1. 什么是文本挖掘 文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。 文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息 ...
分类:
其他好文 时间:
2019-09-21 14:34:04
阅读次数:
107
云计算学习路线教程大纲课件:tar项目实战案例:====================================================================================[root@localhost~]#yum-yinstallmariadb-server[root@localhost~]#systemctlstartmariadb[root@loc
分类:
其他好文 时间:
2019-09-21 10:36:31
阅读次数:
89
TiDB 是 PingCAP 公司设计的开源分布式 HTAP (Hybrid Transactional and Analytical Processing) 数据库,结合了传统的 RDBMS 和 NoSQL 的最佳特性。TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiD... ...
分类:
数据库 时间:
2019-09-21 00:51:43
阅读次数:
186
【原创】 波波说运维 2019-06-22 00:01:00 概述 当我们的系统进入海量数据时代后,很多过去看起来轻松简单的事情就变得比较复杂。此时,就需要我们采取一些独特的技术和技巧,来避免因此带来的一些问题。 如果一个数据表要进行删除,而数据表对应的数据量很大,对应空间多,此时要进行数据表dro ...
分类:
其他好文 时间:
2019-09-20 00:29:58
阅读次数:
112
大数据,很明显从字面上理解就是大量的数据,海量的数据。大,意思就是数据的量级很大,不上TB都不好意思说是大数据。数据,狭义上理解就是12345那么些数据,毕竟计算机底层是二进制来存的,那么在大数据领域,数据就不仅仅包括数字这些,它可以是所有格式的东西,比如日志,音频视频,文件等等。 所以,大数据从字 ...
分类:
其他好文 时间:
2019-09-18 01:16:26
阅读次数:
88
原地址:https://blog.51cto.com/12306609/2095719 大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时 ...
分类:
其他好文 时间:
2019-09-17 09:47:56
阅读次数:
138
调优概述# 几乎在很多场景,MapRdeuce或者说分布式架构,都会在IO受限,硬盘或者网络读取数据遇到瓶颈.处理数据瓶颈CPU受限.大量的硬盘读写数据是海量数据分析常见情况. IO受限例子: 索引 分组 数据倒入导出 数据移动和转换 CPU受限例子: 聚类/分类 复杂的文本挖掘 特征提取 用户画像 ...
分类:
其他好文 时间:
2019-09-16 00:53:54
阅读次数:
209