码迷,mamicode.com
首页 >  
搜索关键字:大数据 hadoop apark flume kafka    ( 29364个结果
java矩阵运算包ujmp中的一些小示例和注意事项
本人最近在用ujmp包写一些程序,ujmp包是针对于超大数据量计算的矩阵的运算包,并且有图形显示的功能且支持多种文件格式的读取和输出,还支持连接数据库,matlab数据类型和weka数据类型,总体来说非常好用,但是有一个很大的缺陷就是基本没有相关的示例和文档,官网上的示例有基本全都过时不能用了,本人...
分类:编程语言   时间:2014-05-22 01:35:09    阅读次数:525
MapReduce之浅析Map接口和Reduce接口
import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.ap...
分类:其他好文   时间:2014-05-22 01:11:55    阅读次数:337
解决用户“不在 sudoers 文件中”的问题
在centOS系统中,我添加了一个用户,但是在我执行su时,终端告诉我以上的错误,下面是我的解决过程:首先切换到root用户:给 etc/hosts读写的权限:使用vi功能打开sudoers文件,在root ALL=(ALL) ALL后面加入本用户的信息:hadoop ALL=(ALL) ALL重新...
分类:其他好文   时间:2014-05-21 23:35:26    阅读次数:347
MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词。在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例。这个案例分两个步骤,第一个是就是wordCount案例,二就是排序功能。一,统计词频 1 package TopK;...
分类:其他好文   时间:2014-05-21 22:29:14    阅读次数:599
hadoop开发使用备记
使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备。 一句话产品介绍:...
分类:其他好文   时间:2014-05-21 16:37:02    阅读次数:363
Kafka介绍
传统的消息模型有两种模型,队列模型和发布-订阅模式。 1. 队列形式中,一群消费者可能从server那边读消息,而每条消息会流向他们中的一个。 2. 发布-订阅模式中,消息会广播到所有它的消费者们那。 Kafka是使用consumer group这个概念(下面把它翻译为"消费组"),把两者结合了。。 消费者给自己标志了一个消费组名,每条新发布到topic的消息会被传递给订阅它的消费组里的消费者实例,这些消费者实例可以是不同的进程,存在在不同的机器上。 如果所有的消费者在同一个消费组里,那么这相当于是...
分类:其他好文   时间:2014-05-21 16:12:44    阅读次数:279
大数据导入EXCEL
最近上头给我派了一个活,oracle数据导入excel,接任务的时候,我感觉比较轻松,心里想,这很简单,三下五除二,一个上午就可以搞定,因为之前实现过嘛!     但是程序在加上“大数据”烙印之后,就不是那么简单的一回事了,实现过程中,出现最常见的两个问题:超出行数限制和内存溢出!     18天的数据,总共是500w条,如何将500w条记录存入excel中,我当时想过两种实现方式:PLSQL...
分类:其他好文   时间:2014-05-21 15:59:54    阅读次数:307
【表空间支持的最大数据文件大小的算法】【数据库限制】【数据文件文件头保留数据块数】
本地管理表空间中设置不同大小的db_block_size时数据文件头保留空间对应如下:--?? db_block_size=2KB,文件头保留32个数据块,即64KB。 db_block_size=4KB,文件头保留16个数据块,即64KB。 db_block_size=8KB,文件头保留8个数据块,即64KB。 db_block_size=16KB,文件头保留4个数据块,即64KB。...
分类:数据库   时间:2014-05-21 08:27:08    阅读次数:529
Linux ssh配置
A机器ssh登录B机器无需输入密码;当应用有服务器很多的时候输入密码很浪费时间 在Hadoop安装时要求免密码登录;一、创建在用户的home目录下创建 .ssh文件夹mkdir .ssh可以隐藏文件夹或文件内容ls -a二、 生成证书证书分为:dsa和rsassh-keygen -t rsa -P ...
分类:系统相关   时间:2014-05-21 06:01:09    阅读次数:505
Hadoop家族学习路线图
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr,...
分类:其他好文   时间:2014-05-21 05:55:45    阅读次数:280
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!