HDFS是Hadoop Distributed Filesystem,Hadoop分布式文件系统。
当数据大到一台机器无法存储时,就要把它分散到多台机器上去,通过网络管理多台计算机上的存储空间的文件系统,就称为分布式文件系统。网络程序的复杂性使得分布式文件系统比普通的磁盘文件系统复杂得多,例如其中最大的挑战之一就是要容错,要在其中一个或几个节点死掉后,仍能保证数据完整。
HDF...
分类:
其他好文 时间:
2014-09-05 18:13:41
阅读次数:
219
需要的软件包:Spark1.0.2Scala2.10.4一、安装ScalaRpm–ivhscala-2.10.4.rpm#安装scalaScala–version#检查刚刚安装的scala版本Scalacoderunnerversion2.10.4--Copyright2002-2013,LAMP/EPFL[hadoop@hadoop2~]$scala#进入scala命令行交互模式做简单运算看下运行结果:至此,sc..
分类:
其他好文 时间:
2014-09-05 16:29:12
阅读次数:
199
hadoop分散磁盘I/O配置dfs.data.dir,将其值配置为多块磁盘<key>dfs.data.dir</key><value>/data/data1,/data/data2,/data/data3</value>####假设多块磁盘被挂在以上目录中2.mapreduce中间数据临时文件分散写老的配置参数为,mapred.local.dir,新配置..
分类:
其他好文 时间:
2014-09-05 16:25:12
阅读次数:
163
hadoop wordcount c++重写...
分类:
编程语言 时间:
2014-09-05 11:21:51
阅读次数:
226
Stopping - no more URLs to fetchException in thread "Thread-8523" Exception: java.lang.OutOfMemoryError thrown from the UncaughtExceptionHandler in th...
分类:
其他好文 时间:
2014-09-05 04:28:30
阅读次数:
241
Hadoop 使用离不开Linux,Linux大都部署在虚拟机上,这么看来虚拟机便成了开发的前提之前提...
分类:
其他好文 时间:
2014-09-04 23:46:20
阅读次数:
388
Hadoop是运行在Linux系统下的,但我们在windows下Eclipse远程访问...
分类:
系统相关 时间:
2014-09-04 23:45:50
阅读次数:
412
转换原始数据为块压缩的SequenceFIleimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.FileSystem;imp...
分类:
其他好文 时间:
2014-09-04 22:06:30
阅读次数:
283
1.部署环境OS:Red Hat Enterprise Linux Server release 6.4 (Santiago)Hadoop:Hadoop 2.4.1Hive:0.11.0JDK:1.7.0_60Python:2.6.6(spark集群需要python2.6以上,否则无法在spark集...
分类:
其他好文 时间:
2014-09-04 18:59:49
阅读次数:
267
hadoop安装 关闭防火墙 修改ip 修改hostname 设置ssh自动登录 安装jdk 安装hadoop1.将hadoop-1.1.2.tar.gz上传到/usr/local/,解压并改名为hadoop 2.配置hadoop环境变量,编辑/etc/profile文件,在该文件底部...
分类:
其他好文 时间:
2014-09-04 18:54:19
阅读次数:
217