一、初识bashBash是一种解释型语言,但它也提供了交互式接口,支持变量,因此提供了编程环境,所以可以称bash为程序语言。解释型语言属于弱类型语言,其特点为:1.它不强制区分变量类型,即无论存储什么数据,默认均以字符格式(ASCII码)存储。2.不需要事先声明变量,需要时直..
                            
                            
                                分类:
其他好文   时间:
2014-05-03 02:09:05   
                                阅读次数:
476
                             
                    
                        
                            
                            
                                本文将介绍Hadoop中的重点MapReduce的入门知识。(1)MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,在Hadoop中用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单..
                            
                            
                                分类:
其他好文   时间:
2014-05-03 01:53:48   
                                阅读次数:
519
                             
                    
                        
                            
                            
                                本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。假设有两行数据,分别是helloyou,hellome,我们要统计其中出现的单词以及每个单词出现的次数。所得的结果为hello2you1me1(1)大致运行流畅1.解析成2个<k,v>,分别是<0,helloyou><10,hel..
                            
                            
                                分类:
其他好文   时间:
2014-05-03 01:51:40   
                                阅读次数:
382
                             
                    
                        
                            
                            
                                Lease 的机制:hdfs支持write-once-read-many,也就是说不支持并行写,那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease,对应到namenode中的LeaseManager,客户端的client name就作为一个lease的holder,即租约持有者。LeaseManager起什么作用呢?
读写过程的容错是怎么做的?数据块是如何复制的?数据块的恢复机制?本文都有涉及。...
                            
                            
                                分类:
其他好文   时间:
2014-05-02 23:22:14   
                                阅读次数:
450
                             
                    
                        
                            
                            
                                在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...
                            
                            
                                分类:
其他好文   时间:
2014-05-02 19:56:21   
                                阅读次数:
367
                             
                    
                        
                            
                            
                                Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。实验环境:OS:Centos 
6.5 x64, Soft:Hadoop 1.2.11、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。 hado...
                            
                            
                                分类:
Web程序   时间:
2014-05-02 12:17:15   
                                阅读次数:
1290
                             
                    
                        
                            
                            
                                去除win7电脑系统桌面图标的快捷方式的小箭头:
首先在桌面新建一个文本文档,设为去除箭头.txt,第二步,把如下代码粘贴到文档中。
reg add "HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Shell Icons" /v 29 /d "%systemroot%\system32\image...
                            
                            
                         
                    
                        
                            
                            
                                一、输入重定向和输出重定向通常计算机的I/O(输入/输出)设备为键盘和显示器,因此当我们执行cat命令而不加任何参数时,命令会等待用户通过键盘输入数据;而当我们为cat命令增加了参数/etc/rc.d/rc.sysinit后,cat命令的输入源变成了文件/etc/rc.d/rc.sysinit。这个过程就是输..
                            
                            
                                分类:
其他好文   时间:
2014-05-02 03:06:47   
                                阅读次数:
319
                             
                    
                        
                            
                            
                                一、初识脚本简单说,脚本就是数条可执行语句的罗列。例如我们将以下可执行命令粘贴至first.sh这个文件中:UserName=user1
mkdir/users
useradd-d/users/$UserName$UserName
echo$UserName|passwd--stdin$UserName这样first.sh就是一个脚本,sh用来标注这是一个shell脚本,它能..
                            
                            
                                分类:
其他好文   时间:
2014-05-02 02:49:26   
                                阅读次数:
390
                             
                    
                        
                            
                            
                                本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。
SimRank++的矩阵形式的计算公式为:
算法主要步骤如下:
Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;
Step2:...
                            
                            
                                分类:
其他好文   时间:
2014-05-01 08:21:53   
                                阅读次数:
527