转载地址: 数据挖掘的数据集资源 来自互联网:1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b 2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto. ...
分类:
其他好文 时间:
2018-01-22 14:47:31
阅读次数:
163
转载:http://blog.csdn.net/liuxiao723846/article/details/78133375 一、场景一描述: 线上api接口服务通过log4j往本地磁盘上打印日志,在接口服务器上安装flume,通过exec source收集日志,然后通过avro sink发送到汇总 ...
分类:
Web程序 时间:
2018-01-19 16:50:53
阅读次数:
388
1.采集日志文件时一个很常见的现象 采集需求:比如业务系统使用log4j生成日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs中。 1.1.根据需求,首先定义一下3大要素: 采集源,即source—监控日志文件内容更新:exec ‘tail -F file’ 下沉目标,即sink ...
分类:
Web程序 时间:
2018-01-19 16:45:15
阅读次数:
313
Flume是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中。轻量,配置简单,适用于各种日志收集,并支持Failover和负载均衡。并且它拥有非常丰富的组件。Flume采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和Sink,三者组建了一个Agent。三者的职责如下所示:
分类:
Web程序 时间:
2018-01-08 16:41:23
阅读次数:
227
1. Flume Sinks 1.1 HDFS Sink 该sink把events写进Hadoop分布式文件系统(HDFS)。它目前支持创建文本和序列文件。它支持在两种文件类型压缩。文件可以基于数据的经过时间或者大小或者事件的数量周期性地滚动。它还通过属性(如时间戳或发生事件的机器)把数据划分为桶或 ...
分类:
Web程序 时间:
2018-01-02 01:26:08
阅读次数:
380
概述: Apache Flume是一个分布式、可用的系统,用于从许多不同的sources有效的收集并移动大量日志数据用于集中存储数据。 架构及数据流动模型: flume实际上就是一个Agent。Agent里面包含三大组件:Source、Channel、Sink。 Flume agent流动的数据单位 ...
分类:
Web程序 时间:
2017-12-24 02:01:49
阅读次数:
472
网络流 最大权闭合子图 我已经忘记了这个东西是什么 大概是这样的,设选了a就必须选b,那么a->b 连inf,代表 强制选 如果价值为正从source连,否则向sink连,然后sum-flow就行了,sum是所有的正权和 这个题很明显是最大权闭合子图,但是中间有些点形成强连通分量挖掉就行了 #inc ...
分类:
其他好文 时间:
2017-12-17 20:50:39
阅读次数:
159
//Created by pritry int graph[MAX][MAX]; //原图 int source; //起点,这里为0 int sink; //终点,这里为n-1 int e[MAX]; //余流 int h[MAX]; //高度 int n; //顶点数 struct Lab... ...
分类:
Web程序 时间:
2017-12-14 03:35:59
阅读次数:
215
1. 使用动态库时,要定义 BOOST_LOG_DYN_LINK 或者 BOOST_ALL_DYN_LINK 否则会出现如下错误: 2. 使用静态库时,注意 libboost_log_setup.a和libboost_log.a 两个库的顺序, 正确的顺序是 libboost_log_setup.a ...
分类:
其他好文 时间:
2017-12-12 21:30:41
阅读次数:
229
一.基本术语 Basic Terminology A source node in a directed graph is a node with no incoming edges. 入度为0 A sink node in a directed graph is a node with no ou ...
分类:
Web程序 时间:
2017-12-08 01:28:04
阅读次数:
243