搞Solr这一年 去年6月份毕业到现在已经快一年半了,很庆幸从事了搜索引擎这份工作,虽然谈不上有多深入,但至少已经入门了。在这一年半里,搞了3个月的hbase和mapreduce,搞了一个月的nutch,最后搞了一年的Solr。想当初刚参加项目的时候,大家对hbase、solr一点都不懂,通过慢慢....
分类:
其他好文 时间:
2014-12-09 22:58:44
阅读次数:
230
1 Hbase日常运维1.1 监控Hbase运行状况1.1.1 操作系统1.1.1.1 IO 群集网络IO,磁盘IO,HDFS IOIO越大说明文件读写操作越多。当IO突然增加时,有可能:1.compact队列较大,集群正在进行大量压缩操作。2.正在执行mapreduce作业可以通过CDH前台查看整...
分类:
其他好文 时间:
2014-12-09 13:48:38
阅读次数:
11902
一、shell 查询hbase 查询相当简单,提供了get和scan两种方式,也不存在多表联合查询的问题。复杂查询需通过hive创建相应外部表,用sql语句自动生成mapreduce进行。但是这种简单,有时为了达到目的,也不是那么顺手。至少和sql查询方式相差较大。hbase 提供了很多过滤器,可对...
分类:
其他好文 时间:
2014-12-09 13:43:40
阅读次数:
269
需求 计算出文件中每个单词的频数。要求输出结果按照单词的字母顺序进行排序。每个单词和其频数占一行,单词和频数之间有间隔。 比如,输入两个文件,其一内容如下: hello world hello hadoop hello mapreduce 另一内容如下: bye world bye ...
分类:
系统相关 时间:
2014-12-09 12:10:39
阅读次数:
222
Tachyon是以内存为中心的分布式文件系统,拥有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。从软件栈的层次来看,Tachyon是位于现有大数据计算框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份,对于上层应用来说,Tachyon就是一个分布式文件系统。本文讲述了Tachyon的重要概念、使用方法以及基本原理。...
分类:
其他好文 时间:
2014-12-09 09:26:53
阅读次数:
243
Hadoop中作业(job)、任务(task)和task attempt之间的关系,及其命名方式...
分类:
其他好文 时间:
2014-12-08 23:07:04
阅读次数:
321
1.大数据学习方向:一是系统建设技术,二,海量数据应用。先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架。目前可以先学习这个。但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle。为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,...
分类:
其他好文 时间:
2014-12-08 21:02:51
阅读次数:
314
输入数据概要 输入数据通常驻留在较大的文件中,通常几十或者数百GB,甚至更大。MapReduce处理的基本原则之一是将输入数据分割成块。这些块可以在多台计算机上并行处理,在Hadoop的术语中这些块被称为输入分片(In...
分类:
其他好文 时间:
2014-12-08 19:52:51
阅读次数:
230
javabean必须实现WritableComparable接口,并实现该接口的序列化,反序列话和比较方法package com.my.hadoop.mapreduce.sort;import java.io.DataInput;import java.io.DataOutput;import ja...
分类:
编程语言 时间:
2014-12-08 19:18:16
阅读次数:
286
package com.my.hadoop.mapreduce.partition;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache....
分类:
其他好文 时间:
2014-12-08 17:08:36
阅读次数:
235