码迷,mamicode.com
首页 >  
搜索关键字:hadoop-mapreduce    ( 502个结果
基于Eclipse的Hadoop应用开发环境配置
启动eclipse,打开窗口?window-->preferences ,配置Hadoop MapReduce的安装路径,在实验环境为/usr/local/hadoop,如下图所示: 2.2.5打开MapReduce视图 点击eclipse菜单Window-->Show View-->Other?窗口,选择...
分类:系统相关   时间:2015-05-20 16:32:32    阅读次数:258
在Windows上使用Eclipse配置Hadoop MapReduce开发环境
在Windows上使用Eclipse配置Hadoop MapReduce开发环境1. 系统环境及所需文件 windows 8.1 64bit Eclipse (Version: Luna Release 4.4.0) hadoop-eclipse-plugin-2.7.0.jar hadoop.dll & winutils.exe 2. 修改Master节点的hdfs-site.xml添加如下内容<...
分类:Windows程序   时间:2015-05-19 16:36:38    阅读次数:294
Hadoop FileInputFormat实现原理及源码分析
FileInputFormat(org.apache.hadoop.mapreduce.lib.input.FileInputFormat)是专门针对文件类型的数据源而设计的,也是一个抽象类,它提供两方面的作用:(1)定义Job输入文件的静态方法;(2)为输入文件形成切片的通用实现;至于如何将切片中...
分类:其他好文   时间:2015-05-19 12:54:34    阅读次数:155
pagerank算法的MapReduce实现
pagerank是一种不容易被欺骗的计算Web网页重要性的工具,pagerank是一个函数,它对Web中(或者至少是抓取并发现其中连接关系的一部分web网页)的每个网页赋予一个实数值。他的意图在于,网页 的pagerank越高,那么它就越重要。并不存在一个固定的pagerank分配算法。 对于pagerank算法的推到我在这里不想做过多的解释,有兴趣的可以自己查看资料看看,这里我直接给出某个网页...
分类:编程语言   时间:2015-05-18 23:09:50    阅读次数:148
Hadoop之——伪分布安装
1.1 设置ip地址     执行命令    service network restart     验证:    ifconfig 1.2 关闭防火墙     执行命令    service iptables stop     验证:        service iptables status 1.3    关闭防火墙的自动运行     执行命令    chkconfig ipt...
分类:其他好文   时间:2015-05-16 18:26:28    阅读次数:140
Hadoop之——HDFS命令
1.对hdfs操作的命令格式是hadoop fs     1.1 -ls            表示对hdfs下一级目录的查看     1.2 -lsr        表示对hdfs目录的递归查看     1.3    -mkdir        创建目录     1.4 -put            从linux上传文件到hdfs     1.5 -get            从...
分类:其他好文   时间:2015-05-16 18:23:28    阅读次数:106
Hadoop2.2.0分布式集群安装
一、安装系统 虚拟软件 :  VMware workstation 10 系统:       Centos 6.4 32bit Master IP :  192.168.56.131 Slave IP  :  192.168.56.132 User & pass:  hadoop 注:一台充当master(namenode),一台充当slave(datanode)。这是最小...
分类:其他好文   时间:2015-05-15 19:57:42    阅读次数:128
spark + ansj 对大数据量中文进行分词
目前的分词器大部分都是单机服务器进行分词,或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢,相对spark来说代码书写较繁琐。本文使用spark + ansj对存储在hdfs中的中文文本数据进行分词。...
分类:其他好文   时间:2015-05-14 16:43:27    阅读次数:350
Hadoop InputFormat
Hadoop可以处理不同数据格式(数据源)的数据,从文本文件到(非)关系型数据库,这很大程度上得益于Hadoop InputFormat的可扩展性设计,InputFormat层次结构图如下:InputFormat(org.apache.hadoop.mapreduce.InputFormat)被设计...
分类:其他好文   时间:2015-05-14 13:57:13    阅读次数:138
spark开篇
spark是什么? spark开源的类Hadoop MapReduce的通用的并行计算框架 spark基于map reduce算法实现的分布式计算 拥有Hadoop MapReduce所具有的优点 但不同于MapReduce的是Job中间输出和结果可以保存在内存中 从而不再需要读写HDFS从上面的官方解释中我们可以得到的信息时,spark是一套并行计算的框架,并且性能要比hadoop的ma...
分类:其他好文   时间:2015-05-11 21:57:34    阅读次数:206
502条   上一页 1 ... 32 33 34 35 36 ... 51 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!