搜索关键字：hadoop 优化，搜索到57270个结果！码迷,mamicode.com！

hive基本操作

Hive是一个基于hadoop的数据仓库工具。Hive的查询语言是hive ql。一种类似sql的语言。 Hive支持的数据类型有 1整形： Tinyint 1字节整型 Smallint 2字节整型 Bigint 8字节整型 2.布尔型 Boolean 3浮点型 Float Double 4字符串类型 String 5.符合类型 ...

分类：其他好文时间：2014-07-22 23:03:34 阅读次数：393

Hadoop AWS Word Count 例子

在AWS里用Elastic Map Reduce 开一个Cluster然后登陆master node并编译以下程序：import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; ...

分类：其他好文时间：2014-07-22 23:01:32 阅读次数：405

Hadoop初学指南(6)--MapReduce的简单实例及分析

本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。假设有两行数据，分别是helloyou，hellome,我们要统计其中出现的单词以及每个单词出现的次数。所得的结果为hello2you1me1(1)大致运行流畅1.解析成2个<k,v>，分别是<0,helloyou><10,hel..

分类：其他好文时间：2014-05-03 01:51:40 阅读次数：382

HDFS追本溯源：租约，读写过程的容错处理及NN的主要数据结构

Lease 的机制：hdfs支持write-once-read-many，也就是说不支持并行写，那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease，对应到namenode中的LeaseManager，客户端的client name就作为一个lease的holder，即租约持有者。LeaseManager起什么作用呢？读写过程的容错是怎么做的？数据块是如何复制的？数据块的恢复机制？本文都有涉及。...

分类：其他好文时间：2014-05-02 23:22:14 阅读次数：450

Ubuntu14下Hadoop开发<1> 基础环境安装

在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...

分类：其他好文时间：2014-05-02 19:56:21 阅读次数：367

Hadoop web监控界面设置安全机制

Hadoop集群配置完成，web监控界面的50070和50030端口不需用户验证即可访问，对生产环境是不容许的，需要加上安全机制。实验环境：OS：Centos 6.5 x64， Soft：Hadoop 1.2.11、修改core-site.xml，增加如下内容，配置完成后拷贝到其他节点上。 hado...

分类：Web程序时间：2014-05-02 12:17:15 阅读次数：1290

腾讯、网易、新浪新闻网站爬虫编写记录及评论格式分析

先说说看这篇博客你能知道什么：1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式（返回数据为json的异步接口）；2 一些比较通用的设计方法，对软件设计的菜鸟可能有帮助；之前也说了要写这边博客，现在终于写出来了。我的毕业设计的指导老师说毕设论文的字数不够……所以我决定把这些本不应该出现在论文中的实现细节凑到论文中。至于下面说到的东西要解决什么问题，各位可以先看看这个网站（我毕设的初步结果，目前还在优化中，包括代码结构还有UI设计）：http://reetseenews.duapp.com/ 这个...

分类：Web程序时间：2014-05-02 06:50:01 阅读次数：436

HDU 3415 Max Sum of Max-K-sub-sequence 最长K子段和

链接：http://acm.hdu.edu.cn/showproblem.php?pid=3415 题意：给出一个数环，要找出其中9长度小于等于K的和最大的子段。思路：不能采用最暴力的枚举，题目的数据量是10^5，O(N^2)的枚举回去超时，本题采用的很巧妙的DP做法，是用单调队列优化的DP。运用的是STL的deque，从i:1~a找到以其中以i为尾的符合条件的子段，并将i本身放入双向队...

分类：其他好文时间：2014-05-01 08:32:53 阅读次数：324

用hadoop实现SimRank++算法(1)----权值转移矩阵的计算

本文主要针对广告检索领域的查询重写应用，根据查询-广告点击二部图，在MapReduce框架上实现SimRank++算法，关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。 SimRank++的矩阵形式的计算公式为：算法主要步骤如下： Step1: 计算权值矩阵，并获取最大Query编号和最大广告编号； Step2:...

分类：其他好文时间：2014-05-01 08:21:53 阅读次数：527

flare-spork: 自己维护的Pig on Spark项目

很早以前有个Pig Spork分支，尝试把Pig迁移到Spark上，但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。 flare-spork是基于Spork对Pig和Spark的衔接，把Spark部分的代码迁移到了Pig 0.12.0上，并且升级了依赖和版本，升级为Scala 2.10.3，Spark 0.9.1，且兼容Hadoop 2.2.0。目前项目在Github上，地址。打算参考Spork已经做的一些东西，继续Pig on Spark的开发。 Github...

分类：其他好文时间：2014-04-30 22:15:39 阅读次数：360

共57270条上一页 1 ... 5714 5715 5716 5717 5718 ... 5727 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)