搜索关键字：hadoop nutch hbase，搜索到16575个结果！码迷,mamicode.com！

Mapreduce执行过程分析(基于Hadoop2.4)——(二)

4.3 Map类创建Map类和map函数，map函数是org.apache.hadoop.mapreduce.Mapper类中的定义的，当处理每一个键值对的时候，都要调用一次map方法，用户需要覆写此方法。此外还有setup方法和cleanup方法。map方法是当map任务开始运行的时候调用一次，...

分类：其他好文时间：2014-07-14 08:35:18 阅读次数：311

hadoop启动，DataNode报错”Incompatible clusterIDs“

启动namenode，通过50070端口查看，发现livenode只有一个--namenode，查看datanode日志，发现有”Incompatible clusterIDs“错误，提示很明显，namenode和datanode的集群id不一致解决办法：找到core-site.xml配置文件，进入...

分类：其他好文时间：2014-07-14 00:54:10 阅读次数：196

十分钟了解分布式计算:Google Dataflow

Google声称内部已经抛弃Map-reduce几年了，并在今年的Google IO大会高调发布Cloud Dataflow系统。本文介绍了在这个新框架下如何进行分布式计算，并与现有基于Hadoop的Twitter Summingbird以及Spark框架进行了对比。

分类：其他好文时间：2014-07-13 20:29:26 阅读次数：353

Hadoop Eclipse远程连接出现：Error：Call to /10.10.10.10:9000 failed on local exception: java.io.EOFException

异常截图：原因很简单，Hadoop对应的eclipse插件jar包版本不对，更换至响应版本即可。

分类：编程语言时间：2014-07-13 19:48:47 阅读次数：323

一个有意思的需求——中文匹配度

引言最近LZ带头在做一个互联网项目，互联网的东西总是那么新鲜，这也难怪大部分猿友都喜欢互联网。这个互联网项目不仅让LZ开发了一个HBase大数据应用，近期的一次需求讨论会上，又出来一个小需求，蛮有意思的。这些需求在之前枯燥的企业内部应用开发中，还是很难见到的，毕竟内部应用更多的是业务流程的体现。....

分类：其他好文时间：2014-07-13 19:13:57 阅读次数：266

蔡先生论道大数据之九：要的就是"快"

前面几章节谈论了企业如何利用大数据帮助企业建立精准营销模型,大家了解了"大数据"\"小数据",那么数据本身的问题解决了,今天我说一下另外一个非常重要的概念,就是"即时性"。可以说大数据最重要的意义之一是解决了营销上的“实时性”问题，在当下手机、平板多屏运作，快速处理用..

分类：其他好文时间：2014-07-13 15:18:57 阅读次数：183

解决vsftp无法上传文件及文件夹的问题

最近一段时间，因为搞hadoop的缘故，考虑到启动linux桌面会给电脑带来比较卡。。所以就将图形界面的启动给关闭，完全在命令的模式下使用linux。使用yum搭建了ftp服务。。yum的使用参考：http://blog.csdn.net/enson16855/article/details/9140623 windows使用FileZilla连接linux的ftp，比较郁闷的是上传问题，弄...

分类：其他好文时间：2014-07-13 14:04:11 阅读次数：324

基于key/value+Hadoop HDFS 设计的存储系统的shell命令接口

对于hadoop HDFS 中的所有命令进行解析（其中操作流程是自己的想法有不同意见欢迎大家指正）接口名称功能操作流程 get 将文件复制到本地文件系统。如果指定了多个源文件，本地目的端必须是一个目录。（1）按照上述机制，在Config server上的存储引擎中逐层读取K-V，直到获得文件名（或大文件元数据...

分类：其他好文时间：2014-07-12 22:25:59 阅读次数：389

Mapreduce执行过程分析(基于Hadoop2.4)——(一)

1 概述该瞅瞅MapReduce的内部运行原理了，以前只知道个皮毛，再不搞搞，不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点，一步步来看里面到底是个什么情况。 2 为什么要使用MapReduce Map/Reduce，是一种模式，适合解决并行计算的问题，比如TopN、贝叶斯分类等。注意，是并行计算，而非迭代计算，像涉及到层次聚类的问题就不...

分类：其他好文时间：2014-07-12 21:31:22 阅读次数：296

Spark SQL源码分析之核心流程

从源代码的角度来看一下Spark SQL的核心执行流程吧...

分类：数据库时间：2014-07-12 21:07:32 阅读次数：299

共16575条上一页 1 ... 1591 1592 1593 1594 1595 ... 1658 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)