1.hive的基础sql 建立测试数据表: 文章表:里面存入一段话,一个字段 (1)hive进行wordcount的统计 (2)经典的行转列 统计分析 要求转换为以下形式: (3)经典函数 时间计算 的使用 udata.user_id udata.item_id udata.rating udata ...
分类:
其他好文 时间:
2019-07-04 00:32:39
阅读次数:
151
一、描述性统计分析 二、数据预处理 三、特征工程 四、建模 (1)测试集与预测集划分(8/2分) 测试集交叉验证选择模型 五、评估模型 ...
分类:
其他好文 时间:
2019-07-03 22:50:39
阅读次数:
117
随着电商的冲击,门店租金的提高,零售行业普遍叹息凛冬将至。如何度过寒冬,在激烈的市场竞争中占得一席之地,是很多零售行业的人士在思考的问题。其中一些有先见知名的领导者,开始借助信息化的力量来帮助门店。而这催生了客流统计分析系统。智能客流分析系统主要应用于客流数据的采集分析,给使用者提供所需信息,主要包... ...
分类:
其他好文 时间:
2019-07-02 19:11:45
阅读次数:
113
大数据平台是对海量结构化、非结构化、半机构化数据进行采集、存储、计算、统计、分析处理的一系列技术平台。大数据平台处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据仓库工具无法处理完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的各 ...
分类:
其他好文 时间:
2019-07-02 13:26:42
阅读次数:
126
本篇文章介绍 中通过第三方实现的功能,有的需要通过额外的插件,有的需要通过第三方提供的功能。这些功能丰富了网站内容,弥补了原生静态网站的不足。 <! more "Hexo博客专题索引页" 增加百度统计分析功能 1. 访问百度统计 "http://tongji.baidu.com" 网站,注册。进入 ...
分类:
其他好文 时间:
2019-07-01 01:17:05
阅读次数:
311
pandas模块 五大功能 支持文件存取操作,支持数据库 支持增删改查,切片,高阶函数,分组聚合等单标操作,和dict,list的互相转换 支持多表拼接合并操作 支持简单的绘图操作 支持简单的统计分析操作 友情链接https://www.cnblogs.com/nickchen121/p/10807 ...
分类:
其他好文 时间:
2019-06-20 20:05:56
阅读次数:
160
大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可用处理、集群、实时性计算等,汇集了当前IT领域热门流行的IT技术。想要学好大数据需掌握以下技术:Java编程技术Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌
分类:
其他好文 时间:
2019-06-18 14:00:57
阅读次数:
109
这里主要从应用角度讲这三者之间的关系 在数据分析工作全流程中,统计方法主要应用在数据探索、统一分析与建模阶段 平均值、中位数等更好了解当前的数据,A/B测试检测两个数据差异是否显著等。 …… 监督学习的驱动力分析与无监督学习的分类分析 ...
分类:
其他好文 时间:
2019-06-07 10:37:30
阅读次数:
124
摘要:美图拥有十亿级用户,每天有数千万用户在使用美图的各个产品,从而积累了大量的用户数据。随着App的不断迭代与用户的快速膨胀,产品、运营、市场等越来越依赖于数据来优化产品功能、跟踪运营效果,分析用户行为等,随之而来的有越来越多的数据统计、分析等需求,那么如何应对和满足不断膨胀的数据统计与分析需求? ...
分类:
其他好文 时间:
2019-06-06 21:03:01
阅读次数:
112