#!/bin/bash #hadoop export HADOOP_HOME=/opt/cloudera/parcels/CDH-5.14.0-1.cdh5.14.0.p0.24 export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH rea ...
分类:
其他好文 时间:
2020-02-22 00:34:00
阅读次数:
95
需求背景业务系统将各类的报表和统计数据存放于ES中,由于历史原因,系统每天均以全量方式进行统计,随着时间的推移,ES的数据存储空间压力巨大。同时由于没有规划好es的索引使用,个别索引甚至出现超过最大文档数限制的问题,因此我们需要最小的代价来解决这个问题。下面以内网开发、测试环境举例使用python脚本解决这个问题。EachElasticsearchshardisaLuceneindex.There
分类:
编程语言 时间:
2020-02-21 18:33:04
阅读次数:
275
Gulp: The streaming build systemgulp是前端开发过程中一种基于流的代码构建工具,是自动化项目的构建利器;她不仅能对网站资源进行优化,而且在开发过程中很多重复的任务能够使用正确的工具自动完成;使用她,不仅可以很愉快的编写代码,而且大大提高我们的工作效率。项目构建是指项... ...
分类:
其他好文 时间:
2020-02-18 13:13:53
阅读次数:
92
Spark Streaming源码流程解析。 [toc] 写在前面 以下是我自己梳理了一遍Spark Streaming程序运行的流程,过程可能有点细、有点乱。 大家可以一边看我写的流程、一边跟着步骤点进去看源码,这样就不会太乱了。 跟着源码走一遍以后,对Spark Streaming的理解也就很清 ...
分类:
其他好文 时间:
2020-02-18 11:15:09
阅读次数:
89
1.1 计数器 计数器的作用是用来统计数量的,用于记录特定事件的次数,分为内置计数器、自定义java枚举计数器、自定义Stream计数器三大类。用于质量分析,或应用级统计。分析计数器的值比分析一堆日志更高效。 计数器名称 计数器介绍 内置计数器 Hadoop自带的计数器,有特定的计数器名称。例如统计 ...
分类:
其他好文 时间:
2020-02-12 10:36:11
阅读次数:
69
项目使用批处理方式处理数据,最开始项目很稳定,一秒一批,200ms基本处理完毕。后来数据量激增一倍之后,项目时不时有阻塞的情况发生。解决思路,1,最开始以为计算资源不够用,查看机器之后发现没有问题。2,各个服务器之间通讯速度,用的都是阿里的服务器,把所有服务器调整到一个网段之后,情况仍然没有改善。3 ...
分类:
其他好文 时间:
2020-02-12 10:30:39
阅读次数:
56
出处:https://www.jianshu.com/p/9b4bab5ecbc2 Application.streamingAssetsPath 在ios端和Android端 只能读取而不能修改, 一般在这个文件夹里面存放一些二进制文件(比如AssetBundle,mp4等一些文件), 这些文件在 ...
分类:
移动开发 时间:
2020-02-09 14:28:27
阅读次数:
86
我们先来以滚动时间窗口为例,来看一下窗口的几个时间参数与Flink流处理系统时间特性的关系。获取窗口开始时间Flink源代码获取窗口的开始时间为以下代码:org.apache.flink.streaming.api.windowing.windows.TimeWindow/** * Method t... ...
分类:
其他好文 时间:
2020-02-07 01:15:39
阅读次数:
143
Flume 官网下载 Flume1.7.0 安装文件,下载地址如下: http://www.apache.org/dyn/closer.lua/flume/1.7.0/apache-flume-1.7.0-bin.tar.gz 下载后,把 Flume1.7.0 安装到 Linux 系统的“/usr/ ...
分类:
其他好文 时间:
2020-02-06 20:19:45
阅读次数:
95
今天主要进行了spark实验六的学习,Spark Streaming 编程初级实践 Flume 是非常流行的日志采集系统,可以作为 Spark Streaming 的高级数据源。请把 Flume Source 设置为 netcat 类型,从终端上不断给 Flume Source 发送各种消息,Flu ...
分类:
其他好文 时间:
2020-02-06 14:42:22
阅读次数:
107