flume-kafka-storm-hdfs-hadoop-hbase ...
分类:
Web程序 时间:
2017-12-15 16:18:48
阅读次数:
197
Sqoop Flume HDFS Sqoop用于从结构化数据源,例如,RDBMS导入数据 Flume 用于移动批量流数据到HDFS HDFS使用 Hadoop 生态系统存储数据的分布式文件系统 Sqoop具有连接器的体系结构。连接器知道如何连接到相应的数据源并获取数据 Flume 有一个基于代理的架 ...
分类:
Web程序 时间:
2017-12-13 17:05:24
阅读次数:
242
1:项目技术架构图: 2:流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hado ...
分类:
Web程序 时间:
2017-12-09 23:50:23
阅读次数:
262
Ansible介绍 一、简介Ansible是基于paramiko开发的,并且基于模块化工作,本身并没有批量部署的能力,真正具有批量部署的是ansible所运行的模块,ansible只是提供一种框架。Ansible不需要在远程主机上安装client/agents,因为它们是基于ssh来和远程主机通讯的。Ansible目前已经被收购是自动化运维工具中大家认可度最高的,并且容易上手
分类:
其他好文 时间:
2017-12-09 20:59:54
阅读次数:
277
Apache Flume概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 支持定制各类数据发送方,用于收集各类型数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。一般的采集需求,通过对 flu ...
分类:
Web程序 时间:
2017-12-08 23:58:12
阅读次数:
358
``` python
USER_AGENTS = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (... ...
分类:
编程语言 时间:
2017-12-08 21:05:27
阅读次数:
1122
整合Kafka+Storm,消息通过各种方式进入到Kafka消息中间件,比如通过使用Flume来收集的日志数据,然后暂由Kafka中的路由暂存,然后在由实时计算程序Storm做实时分析,这时候我们需要讲Storm中的Spout中读取Kafka中的消息,然后交由具体的Bolt组件分析处理。实际上在 a ...
分类:
数据库 时间:
2017-12-05 15:24:31
阅读次数:
434
# -*- coding=utf8 -*- import urllib2 import re import time import random import socket import threading from user_agents import agents import sys relo... ...
分类:
其他好文 时间:
2017-12-04 11:36:08
阅读次数:
197
# encoding=utf-8 """ User-Agents """ agents = [ "Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gec... ...
分类:
其他好文 时间:
2017-12-04 11:34:49
阅读次数:
1243
实践一:regex filter interceptor 1、目标场景 regex filter interceptor的作用: 1)将event body的内容和配置中指定的正则表达式进行匹配2)如果内容匹配,则将该event丢弃3)如果内容不匹配,则将该event放行 2、Flume Agent ...
分类:
Web程序 时间:
2017-12-03 18:09:32
阅读次数:
314