搜索关键字：mapreduce实现，搜索到106个结果！码迷,mamicode.com！

awk方式实现词频统计： javaApi方式实现词频统计： mapreduce实现词频统计： scala方式实现词频统计： ...

分类：编程语言时间：2018-06-02 14:59:13 阅读次数：193

温度排序代码，具体说明可以搜索其他博客 KeyPair.java Sort.java: Partition.java: Group.java: RunJob.java: 其中自定义的sort和parititon是在mapTask任务之后使用的，而Group是在reduce任务使用的。 ...

分类：编程语言时间：2018-03-29 16:42:20 阅读次数：191

MapReduce实现TF-IDF详解

TF-IDF算法简介 TF-IDF概念 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文 ...

分类：其他好文时间：2018-03-09 20:30:35 阅读次数：898

MapReduce实现线性回归

1. 软件版本号：Hadoop2.6.0（IDEA中源代码编译使用CDH5.7.3，相应Hadoop2.6.0），集群使用原生Hadoop2.6.4。JDK1.8，Intellij IDEA 14 。源代码能够在https://github.com/fansy1990/linear_regressi ...

分类：其他好文时间：2018-02-12 13:49:03 阅读次数：233

基于HBase的MapReduce实现大量邮件信息统计分析

一：概述在大多数情况下，如果使用MapReduce进行batch处理，文件一般是存储在HDFS上的，但这里有个很重要的场景不能忽视，那就是对于大量的小文件的处理（此处小文件没有确切的定义，一般指文件大小比较小，比如5M以内的文件），而HDFS的文件块一般是64M，这将会影响到HDFS的性能，因为小 ...

分类：其他好文时间：2018-02-05 18:39:13 阅读次数：198

Hadoop 之 Spark 安装配置与示例

Spark 安装配置与示例 Spark，它是大规模数据处理通用的并行化计算框架，基于MapReduce实现分布式计算，其中间结果可以保存在内存中，从而不再需要读写HDFS。Spark 是 Scala 语言实现的， Scala 也被用作其应用程序框架,Spark 和 Scala 能够紧密集成，Scal ...

分类：其他好文时间：2018-01-29 19:14:52 阅读次数：211

mongoDB统计数据--mapReduce实现

需求背景：按不同的规则，分别显示所有状态（status=0，status=1，...）的总数和指定状态（status=1）的总数，需按“所有状态总数”、“指定状态总数”排序。需求及技术分析过程：看似非常简单，如果用关系型数据库，可以分别统计所有状态总数、指定状态总数再用join连接再排序实现。现 ...

分类：数据库时间：2017-10-08 18:04:49 阅读次数：757

使用 MapReduce 实现分组排名

题目： 1.输出男女组各前3名。 2.分组降序输出所有人的成绩。 3.对应的SQL语句。数据： scores: name,age,gender,score 解答如下： 1. 输出男女组各前3名。 Java代码 SQL 代码 2.分组降序输出所有人的成绩。 Java代码 SQL代码附：Java代码 ...

分类：其他好文时间：2017-09-22 14:11:27 阅读次数：196

Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。 1.1.1 什么使用Hive 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive 操作接口采用类S ...

分类：其他好文时间：2017-09-20 21:54:32 阅读次数：175

C#使用MapReduce实现对分片数据的分组

事由：mongodb已经进行数据分片，这样就不能使用一些方法就不能使用，例如eval,$group如果尝试使用mongodb会提示错误原因：分片服务端不支持单服务器实例方法经过查找，分片服务器的查询和操作只能使用MapReduce或者Aggregate（聚合管道）操作，这两个mongodb的高级 ...

分类：Windows程序时间：2017-08-16 20:13:48 阅读次数：699

共106条上一页 1 2 3 4 5 6 ... 11 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)