1、MapReduce理论简介1.1、MapReduce编程模式 MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。 在Hadoo.....
分类:
其他好文 时间:
2015-04-23 19:09:58
阅读次数:
123
HDFS和HBase是Hadoop中两种主要的存储文件系统,两者适用的场景不同,HDFS适用于大文件存储,HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的,也可以说是block策略。正文一写入数据 当没有配置机架信息时,所有的机器had....
分类:
其他好文 时间:
2015-04-23 12:39:29
阅读次数:
110
周末去了趟外地,受托给某省移动公司做了一下Hadoop集群故障分析和性能调优,把一些问题点记录下来。该系统用于运营商的信令数据,大约每天1T多数据量,20台Hadoop服务器,赞叹一下运营商乃真土豪,256G内存,32核CPU,却挂了6块2T硬盘。还有10台左右的服务器是64G内存,32核CP..
分类:
其他好文 时间:
2015-04-20 18:57:05
阅读次数:
155
在使用mahout之前要安装并启动hadoop集群将mahout的包上传至linux中并解压即可mahout下载地址:点击打开链接mahout中的算法大致可以分为三大类:聚类,协同过滤和分类其中常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等常用分类算...
分类:
编程语言 时间:
2015-04-15 21:13:03
阅读次数:
170
在Linux上安装Hadoop教程在虚拟机中安装的Ubuntu系统下搭建Hadoop集群时首先要解决的问题是将宿主机的文件拷贝到虚拟机上。采用的简单方法是宿主机使用Serv-U建立一个FTP然后在虚拟机上登录将文件拷出来。要先熟悉Linux的基本概念和操作,如:cd、ls、tar、cat、ssh、s...
分类:
系统相关 时间:
2015-04-15 20:57:28
阅读次数:
258
HDFSECC memoryECC memory is strongly recommended, as several Hadoop users have reported seeing many checksum errors when using non-ECC memory on Hadoop clusters....
分类:
其他好文 时间:
2015-04-14 11:21:10
阅读次数:
277
Hadoop集群搭建好之后,解压Spark文件即可 Spark安装包 http://yunpan.cn/csPh8cf2n5WrT 提取码 1085 Spark命令-统计README.md文件行数,以及寻找所含关键字,以及文件第一行的相关命令 val lines = sc.textFile("REA...
分类:
其他好文 时间:
2015-04-14 09:51:10
阅读次数:
751
Hadoop急诊室的半小时:动态设置调整日志级别技术大数据蜗牛2015.02.03本文通过一个在实际工作中所遇到的线上问题来告诉广大数据从业者一条通俗有用的人生哲理:线上遇到这样的问题,千万要冷静,越是着急越容易出乱子!心急吃不了热豆腐。十万火急上周二,朋友公司的Hadoop集群服务不可用,从早上9...
分类:
其他好文 时间:
2015-04-12 17:28:17
阅读次数:
177
在使用mahout之前要安装并启动hadoop集群
将mahout的包上传至linux中并解压即可
mahout下载地址:
点击打开链接
mahout中的算法大致可以分为三大类:
聚类,协同过滤和分类
其中
常用聚类算法有:canopy聚类,k均值算法(kmeans),模糊k均值,层次聚类,LDA聚类等
常用分类算法有:贝叶斯,逻辑回归,支持向量机,感知器,神经网络等
...
分类:
编程语言 时间:
2015-04-11 09:04:31
阅读次数:
328