用户行为日志概述用户行为日志:用户每次访问网站时所有的行为数据访问、浏览、搜索、点击...用户行为轨迹、流量日志(用户行为日志的其他名称)为什么要记录用户访问行为日志:进行网站页面的访问量的统计分析网站的黏性训练推荐系统用户行为日志生成渠道:web服务器记录的web访问日志ajax记录的访问日志以及其他相关的日志用户行为日志大致内容:访问时间访问者所使用的客户端(UserAgent)访问者的IP地
分类:
其他好文 时间:
2018-04-02 16:02:41
阅读次数:
200
MapReduce程序之序列化原理与Writable案例
分类:
其他好文 时间:
2018-03-06 16:59:44
阅读次数:
198
Yet Another Resource Negotiator Apache Hadoop YARN 是新一代资源管理调度框架,主要针对 Hadoop MapReduce 1.0 的缺陷做出了改进 MapReduce 1.0 的缺陷 MapReduce 1.0 采用 Master/Slave 架构设 ...
分类:
其他好文 时间:
2018-03-04 10:34:20
阅读次数:
160
一、概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data- ...
分类:
其他好文 时间:
2018-01-30 21:13:54
阅读次数:
257
MapReduce的输入输出 一个MapReduce作业的输入和输出类型:会有三组<key , value>键值对类型的存在 Mapreduce作业的处理流程 按照时间顺序包括: 输入分片(input split) 在进行map计算之前,mapreduce根据输入文件计算输入分片,每个输入分片针对一 ...
分类:
其他好文 时间:
2018-01-27 21:21:58
阅读次数:
196
在Hadoop中,一个MapReduce作业会把输入的数据集切分为若干独立的数据块,由Map任务以完全并行的方式处理。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。作业的输入和输出都会被存储在文件系统中,整个框架负责任务的调度和监控,以及重新执行已关闭的任务。MapReduce框 ...
分类:
其他好文 时间:
2018-01-27 21:19:10
阅读次数:
194
MapReduce是什么? Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成地大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别地海量数据集。 MapReduce工作机制 Mapreduce 的4个对象 1、客 ...
分类:
其他好文 时间:
2018-01-27 20:11:22
阅读次数:
123
一.前述 1.HBase,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。2.利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务。 3.主要用来存储非结构化和半结构化的松散数据(列 ...
分类:
其他好文 时间:
2018-01-12 20:23:55
阅读次数:
135
http://hadoop.apache.org/docs/r2.9.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Overview 一个MapReduce作业通常会将数据输入切分成独立的块 ...
分类:
其他好文 时间:
2017-12-26 00:55:11
阅读次数:
210