本文以康哥的博客为基础进行修改和补充,详见:http://kangfoo.github.io/article/2014/01/hadoop1.x-wordcount-fen-xi/hadoop 
mapreduce 过程粗略的分为两个阶段: 1.map; 2.redurce(copy, sor...
                            
                            
                                分类:
其他好文   时间:
2014-05-02 00:06:57   
                                阅读次数:
553
                             
                    
                        
                            
                            
                                1。国际化 如添加朋友Friends是英文,可以找着相关的类,并在国际化配置文件中添加key 
在项目中全局搜索“Friends”,将得到的结果集全部展开,找到这两个文件: 在国际化配置文件spark_i18n_zh_CN.properties 中增加 
custum.friends=朋友 修...
                            
                            
                                分类:
其他好文   时间:
2014-05-01 19:52:51   
                                阅读次数:
470
                             
                    
                        
                            
                            
                                眼下大数据口号满天飞,今天拿我微信圈朋友一段时间内分享内容作为数据,用R包的算法实现简单分析。由于微信没有接口获取数据,暂时只能手动记录数据,主要是做个小尝试,数据获取方式是其次。1)我们看看微信圈活跃的朋友。PS:知道为何我们的流量烧的这么快了吧?这些小伙伴八成是运营商潜伏过来的余则成,在背后分成...
                            
                            
                                分类:
其他好文   时间:
2014-05-01 19:11:52   
                                阅读次数:
372
                             
                    
                        
                            
                            
                                一、Hadoop概述
hadoop由两部分组成,分别是分布式文件系统和分布式计算框架MapReduce。其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系
统之上,对存储在分布式文件系统中的数据进行分布式计算。
2、在Hadoop 中,MapReduce 底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单...
                            
                            
                                分类:
其他好文   时间:
2014-05-01 18:34:41   
                                阅读次数:
382
                             
                    
                        
                            
                            
                                Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在DataNode的内存当中
集中式缓存管理有着许多显著的优势:
防止那些被频繁使用的数据从内存中清除因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓存的列表,...
                            
                            
                                分类:
其他好文   时间:
2014-05-01 17:45:58   
                                阅读次数:
379
                             
                    
                        
                            
                            
                                亚马逊AWS在线讲座将围绕AWS云平台的各种服务分不同的主题对AWS服务进行系统介绍。AWS在线讲座系列会由浅入深帮助刚开始接触AWS的用户了解各种AWS云服务,达到快速上手进行实际应用的目的。
第一讲:AWS入门介绍
在此次在线讲座旨在帮助您:
1. 了解AWS云计算概览及价值主张
2. 了解AWS 服务的特点:灵活、高效、弹性以及安全性
3. 了解AWS云平台的基础知识,包括AWS的计算、存储、网络、数据库和大数据等服务概况...
                            
                            
                                分类:
其他好文   时间:
2014-04-30 22:34:38   
                                阅读次数:
313
                             
                    
                        
                            
                            
                                在将ORACLE存储过程迁移到HIVE平台时,不可避免地会遇到各种问题。
ORACLE与HIVE都使用SQL语句,但是语法和特性不尽相同,本文简述了几个迁移时需要注意的地方。...
                            
                            
                                分类:
数据库   时间:
2014-04-30 22:31:40   
                                阅读次数:
526
                             
                    
                        
                            
                            
                                javaScript 关于Windows
1 Windows 对象
所有浏览器都支持 window 对象。它表示浏览器窗口。
所有 JavaScript 全局对象、函数以及变量均自动成为 window 对象的成员。
全局变量是 window 对象的属性。
全局函数是 window 对象的方法。
window.document.getElementById("header");
2...
                            
                            
                                分类:
编程语言   时间:
2014-04-30 22:27:39   
                                阅读次数:
499
                             
                    
                        
                            
                            
                                一、简介
1、MapReduce 应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。
2、从MapReduce 自身的命名特点可以看出,MapReduce 由两个阶段组成:Map 和Reduce 。用户只需编写map ( ) 和reduce( ) 两个函数,即可完成简单的分布式程序的设计。
  1)m a p ( ) 函数以key/value 对作为输入,产...
                            
                            
                                分类:
其他好文   时间:
2014-04-30 22:23:39   
                                阅读次数:
466
                             
                    
                        
                            
                            
                                (转载请注明出处:http://blog.csdn.net/buptgshengod)
1.背景知识
      在刚刚结束的天猫大数据s1比赛中,逻辑回归是大家都普遍使用且效果不错的一种算法。
 
(1)回归     
     
    先来说说什么是回归,比如说我们有两类数据,各有50十个点组成,当我门把这些点画出来,会有一条线区分这两组数据,我们拟合出这个曲线(因为很有可能是非...
                            
                            
                                分类:
编程语言   时间:
2014-04-30 22:15:39   
                                阅读次数:
454