腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。 腾讯分布式数据仓库(Tencent distrib ...
分类:
其他好文 时间:
2017-03-10 00:16:17
阅读次数:
259
一、人群画像1.什么是人群画像大数据?人群画像通过收集用户的行为特征、年龄特征、用户场景、地域特征、目标动机等一系列海量真实数据,建立用户模型,抽出典型目标用户针对性分析。2.人群画像大数据有什么作用?现有的人群画像大多只是用来进行营销活动,通过已有建立人群画..
分类:
其他好文 时间:
2016-10-14 18:13:48
阅读次数:
256
1、加载加载超过5秒就会有74%的用户离开页面。 2、高峰期中午12点左右和晚上10点左右是页面访问高峰期。 3、页面热度通过用户口碑扩散的移动页面,其访问热度往往持续两天左右。 4、操作习惯大多数用户习惯滑动切换,放置在左边的按钮点击率低。 5、流失率用户随着页面层级的加深而不断流失,流失率在前几 ...
分类:
移动开发 时间:
2016-03-31 23:20:53
阅读次数:
280
内容简介:腾讯的月活跃用户8.3亿微信月活跃用户4.4亿QQ空间月活跃用户6.5亿游戏月活跃用户过亿如今腾讯的数据分析已经能做到始终“不落地”,即全部的实时处理。腾讯大数据平台有如下核心模块:TDW、TRC、TDBank、TPR和 Gaia。简单来说,TDW用来做批量的离线计算,TRC负责做流式的实...
分类:
其他好文 时间:
2015-09-17 19:16:10
阅读次数:
360