数据采集:采用Flume收集日志,采用Sqoop将RDBMS以及NoSQL中的数据同步到HDFS上 消息系统:可以加入Kafka防止数据丢失 实时计算:实时计算使用Spark Streaming消费Kafka中收集的日志数据,实时计算结果大多保存在Redis中 机器学习:使用了Spark MLlib ...
分类:
其他好文 时间:
2019-01-04 14:49:53
阅读次数:
154
1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hadoop集群 3) 数据仓库技术:基于hadoop之上的Hive 4) 数据导出:基于hadoop的sqoop数据导入导出工具 5) 数据可视化:定制开发web程序或使用kettle ...
分类:
其他好文 时间:
2019-01-02 23:28:02
阅读次数:
243
flume flume 简介及核心概念 什么是flume Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,目前是Apache的顶级项目。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据 ...
分类:
其他好文 时间:
2019-01-02 19:08:54
阅读次数:
262
后端在生成订单表的时候,牵扯到如下的知识点: 1 事物 2 高并发 3 时间函数的使用 一,事务: 例子用法: except: transaction.savepoint_rollback(save_ponit) else: transaction.savepoint_commit(save_pon ...
分类:
其他好文 时间:
2019-01-02 15:11:38
阅读次数:
267
mybatis版本和mybatis-spring版本需要对应,否则有可能会出现异常org.mybatis.spring.transaction.SpringManagedTransaction.getTimeoutSqlSessionwasnotregisteredforsynchronizationbecausesynchronizationisnotactive新<dependency&
分类:
编程语言 时间:
2019-01-02 12:44:50
阅读次数:
563
异常:Bean named 'org.springframework.transaction.interceptor.TransactionInterceptor#0' is expected to be of type 'org.aopalliance.aop.Advice' but was ac ...
分类:
编程语言 时间:
2019-01-01 13:23:18
阅读次数:
248
理解问题 客户细分需要解决的问题是按照客户之间的相似特征区分不同客户群体。这个问题的先决条件中没有可供使用的客户分类列表,只有客户的人物画像。 数据集 已有的数据是公司的历史商业活动记录以及客户的购买记录。 offer.csv: transaction.csv: 预处理 需要对两个数据集做关联处理, ...
分类:
Web程序 时间:
2018-12-31 21:15:56
阅读次数:
205
2018-12-31 15:29:44 Flume 百度百科: flume(日志收集系统) Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种 ...
分类:
Web程序 时间:
2018-12-31 19:17:11
阅读次数:
187
步骤: 1.在Linux下安装netcat工具,用户开启socket客户端: a.切换至root下 $>su root b.执行安装命令 $>yum install -y nc c.切换至Alex_lei用户下,模拟聊天室: $>nc 开启服务端 $>nc -l 55555 开启客户端 $>nc l ...
分类:
Web程序 时间:
2018-12-31 14:43:05
阅读次数:
279
一:介绍 (1)日志采集系统 (2)是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。 (3)具有基于流数据流的简单灵活的架构。 (4)具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。 二:flume的三个组件:【Source,Channel,Sink】构成A ...
分类:
Web程序 时间:
2018-12-31 13:51:24
阅读次数:
211