搜索关键字：flume hdfs sink lzo 格式压缩，搜索到6349个结果！码迷,mamicode.com！

利用LDA进行文本聚类(hadoop, mahout)

项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号，value为待聚类文本的单词向量Vector, Vector...

分类：其他好文时间：2014-07-07 10:43:16 阅读次数：1186

Flume 实战(1) -- 初体验

前言: Flume-ng是数据收集/聚合/传输的组件, Flume-ng抛弃了Flume OG原本繁重的zookeeper和Master, Collector, 其整体的架构更加的简洁和明了. 其基础组件就Agent进程, 内部又可以细分为Source, Channel, Sink三个组件, S.....

分类：其他好文时间：2014-07-07 00:26:46 阅读次数：355

Flume-NG(1.5版本)中SpillableMemoryChannel源码级分析

SpillableMemoryChannel是1.5版本新增的一个channel。这个channel优先将evnet放在内存中，一旦内存达到设定的容量就使用file channel写入磁盘。然后读的时候会按照顺序读取：会通过一个DrainOrderQueue来保证不管是内存中的还是溢出(本文的“.....

分类：其他好文时间：2014-07-06 16:41:08 阅读次数：296

HIVE部署安装(笔记)

1、下载hive:wget http://mirrors.cnnic.cn/apache/hive/hive-0.12.0/hive-0.12.0.tar.gz2、解压hive安装文件 tar -zvxf hive-0.12.0.tar.gz3、配置hive环境变量，初始化hive在hdfs上的工作...

分类：其他好文时间：2014-07-06 15:35:09 阅读次数：146

HDU 3488Tour(网络流之最小费用流）

题目地址：hdu3488 这题跟上题基本差不多啊。。。。详情请戳这里。另外我觉得有要改变下代码风格了。。终于知道了为什么大牛们的代码的变量名都命名的那么长。。我决定还是把源点与汇点改成source和sink吧。。用s和t太容易冲突了。。。于是如此简单的一道题调试到了现在。。sad。。。代码如下： #include #include #include #include #incl...

分类：其他好文时间：2014-07-06 10:42:26 阅读次数：286

Hadoop技术内幕HDFS-笔记11之HDFS

Hdfs文件系统，提供了一套基于hadoop的抽象文件系统的API，支持以流的方式访问文件系统中的数据。特性：1、支持超大文件2、检测和快速应对硬件故障（故障检测和自动恢复）3、流式数据访问，注重的是数据的吞吐量，而不是数据的响应速度4、简化的一致性模型，一次写入，多次读取。不适合：5、低...

分类：其他好文时间：2014-07-03 18:51:20 阅读次数：266

【甘道夫】HBase开发环境搭建过程中可能遇到的异常：No FileSystem for scheme: hdfs

HBase开发环境搭建过程中可能遇到的异常：No FileSystem for scheme: hdfs...

分类：其他好文时间：2014-07-03 17:10:28 阅读次数：295

Hadoop技术内幕HDFS-笔记8之java文件系统

1.1. java文件系统 1.1.1. URI和URL 1.1.2. java IO(自行研究)

分类：编程语言时间：2014-07-02 20:51:44 阅读次数：242

Hadoop技术内幕HDFS-笔记7之hadoop文件系统

文件系统，对文件和目录的管理1.1. linux本地文件系统1.1.1. 虚拟文件系统1.1.1. linux文件保护机制 1.2. 分布式文件系统NFS