awk方式实现词频统计: javaApi方式实现词频统计: mapreduce实现词频统计: scala方式实现词频统计: ...
分类:
编程语言 时间:
2018-06-02 14:59:13
阅读次数:
193
温度排序代码,具体说明可以搜索其他博客 KeyPair.java Sort.java: Partition.java: Group.java: RunJob.java: 其中自定义的sort和parititon是在mapTask任务之后使用的,而Group是在reduce任务使用的。 ...
分类:
编程语言 时间:
2018-03-29 16:42:20
阅读次数:
191
TF-IDF算法简介 TF-IDF概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文 ...
分类:
其他好文 时间:
2018-03-09 20:30:35
阅读次数:
898
1. 软件版本号:Hadoop2.6.0(IDEA中源代码编译使用CDH5.7.3,相应Hadoop2.6.0),集群使用原生Hadoop2.6.4。JDK1.8,Intellij IDEA 14 。源代码能够在https://github.com/fansy1990/linear_regressi ...
分类:
其他好文 时间:
2018-02-12 13:49:03
阅读次数:
233
一:概述 在大多数情况下,如果使用MapReduce进行batch处理,文件一般是存储在HDFS上的,但这里有个很重要的场景不能忽视,那就是对于大量的小文件的处理(此处小文件没有确切的定义,一般指文件大小比较小,比如5M以内的文件),而HDFS的文件块一般是64M,这将会影响到HDFS的性能,因为小 ...
分类:
其他好文 时间:
2018-02-05 18:39:13
阅读次数:
198
Spark 安装配置与示例 Spark,它是大规模数据处理通用的并行化计算框架,基于MapReduce实现分布式计算,其中间结果可以保存在内存中,从而不再需要读写HDFS。Spark 是 Scala 语言实现的, Scala 也被用作其应用程序框架,Spark 和 Scala 能够紧密集成,Scal ...
分类:
其他好文 时间:
2018-01-29 19:14:52
阅读次数:
211
需求背景:按不同的规则,分别显示所有状态(status=0,status=1,...)的总数和指定状态(status=1)的总数,需按“所有状态总数”、“指定状态总数”排序。 需求及技术分析过程:看似非常简单,如果用关系型数据库,可以分别统计所有状态总数、指定状态总数再用join连接再排序实现。 现 ...
分类:
数据库 时间:
2017-10-08 18:04:49
阅读次数:
757
题目: 1.输出男女组各前3名。 2.分组降序输出所有人的成绩。 3.对应的SQL语句。 数据: scores: name,age,gender,score 解答如下: 1. 输出男女组各前3名。 Java代码 SQL 代码 2.分组降序输出所有人的成绩。 Java代码 SQL代码 附:Java代码 ...
分类:
其他好文 时间:
2017-09-22 14:11:27
阅读次数:
196
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 1.1.1 什么使用Hive 直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用类S ...
分类:
其他好文 时间:
2017-09-20 21:54:32
阅读次数:
175
事由:mongodb已经进行数据分片,这样就不能使用一些方法就不能使用,例如eval,$group如果尝试使用mongodb会提示 错误原因:分片服务端不支持单服务器实例方法 经过查找,分片服务器的查询和操作只能使用MapReduce或者Aggregate(聚合管道)操作,这两个mongodb的高级 ...