本来打算玩 netty的 但是这个东西暂时也不用,而且我之前玩过mina就暂时不玩这个了,等以后有时间再玩,那玩啥呢?前几天和我们领导要了百度网盘会员,下了60G的大数据视屏,嘿嘿,有的玩了,今天开始第一章,大家都知道,要玩大数据,坑定要用Linux的,今天就开始玩Linux把 要玩呢,就需要安装接 ...
分类:
系统相关 时间:
2020-07-12 16:19:44
阅读次数:
73
对于海量的数据处理问题是一项艰巨而复杂的任务。原因有以下几个方面: 一、数据量过大,数据中什么情况都可能存在 如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什 ...
分类:
数据库 时间:
2020-07-12 12:12:37
阅读次数:
80
1 Hadoop是什么 2 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera在大型互联网企业中用的较多。 Hortonworks文档较好。 Apache Hado ...
分类:
其他好文 时间:
2020-07-12 00:59:06
阅读次数:
92
1. 一期工程项目技术架构 1)业务驱动 2)问题驱动 2. 二期工程项目技术架构 项目优化原则: 1)优先从架构和程序进行优化 2)考虑增加集群扩容 做任务为什么不适用kafka? 1)此业务用户量还小 2)数据量小 3)使用kafka大材小用,资源浪费 为什么同时使用db和redis 1)用户成 ...
分类:
其他好文 时间:
2020-07-12 00:58:36
阅读次数:
115
最近在研究虚拟化,容器和大数据,所以从Docker入手,下面介绍一下在Windows下怎么玩转Docker。 Docker本身在Windows下有两个软件,一个就是Docker,另一个是Docker Toolbox。这里我选择的是Docker Toolbox,为什么呢?参见官方文档: 官方下载地址( ...
1 kafka介绍 Kafka是一款性能非常好的并且支持分布式的消息队列中间件由于它的高吞吐特性,Kafka通常使用在大数据领域,如日志收集平台Kafka是一个流处理平台,因为它在工作中就像是一个可以支撑高吞吐量的管道,数据像水一样流进去,然后另外一端再去读取这些数据我们就可以把Kafka看作是一种 ...
分类:
其他好文 时间:
2020-07-11 13:02:34
阅读次数:
55
Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的 存储HDFS,查询MapReduce 优势 解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理 充分利用集群的CPU计算资源,存储资源,实现并行计算 Hive支持标准的SQL语法,免去了编写 ...
分类:
其他好文 时间:
2020-07-10 19:33:44
阅读次数:
77
数据库是按照数据结构来组织、存储和管理数据的仓库。通俗理解,数据库被视为电子资料柜,用户可以线上对资料柜中的数据进行各种合法操作,如添加数据,更新数据,删除数据,截取数据等等。
分类:
数据库 时间:
2020-07-10 19:18:26
阅读次数:
192
需求背景 项目需要对接大数据平台,定时更新相关的统计数据 version SpringBoot: 2.2.4.RELEASE MySQL: 5.5.4 Quartz: 2.3.0 实现 导入数据库表 因为Quartz 集群依赖于数据库,所以必须首先创建Quartz数据库表。Quartz 包括了所有被 ...
分类:
编程语言 时间:
2020-07-10 15:14:54
阅读次数:
97
redis支持的数据类型:字符串(string)哈希表(hash)列表(list)集合(set)有序集合(zset)位图(bitmaps)HyperLoglogs、GEO等.redis特性如下:速度快:基于内存工作,使用离OS最近的C语言编写,使用单线程架构,预防了多线程可能产生的竞争问题。基于键值对的数据结构服务器:redis中的值不仅仅可以是字符串,关于其支持的数据类型已经在文章开头列出来了。
分类:
其他好文 时间:
2020-07-10 09:58:44
阅读次数:
60