https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主 ...
分类:
其他好文 时间:
2019-01-12 15:26:19
阅读次数:
148
一、预处理部分 1.拿到数据首先对数据进行分析 对数据的分布有一个大致的了解,可以用画图函数查看所有类的分布情况。可以采取删除不合理类的方法来提高准确率; 对图像进行分析,在自定义的图像增强的多种方式中,尝试对图像进行变换,看是否存在主观上的特征增强,具体的增强 方法在aug.py文件中,可以在线下 ...
分类:
其他好文 时间:
2018-12-16 21:41:10
阅读次数:
425
这篇文章主要从数据治理的基础和核心之一:元数据 入手,从以下几个角度展开具体讲解:元数据概念,元数据的分布和采集,元数据的一些实际应用场景
分类:
其他好文 时间:
2018-12-13 16:31:38
阅读次数:
219
一、分布式爬虫介绍 分布式爬虫概念:多台机器上执行同一个爬虫程序,实现网站数据的分布爬取。 1、原生的Scrapy无法实现分布式爬虫的原因? 调度器无法在多台机器间共享 :因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。 管道无法 ...
分类:
其他好文 时间:
2018-12-08 11:17:11
阅读次数:
143
Flink视频教程_基于Flink流处理的动态实时电商实时分析系统课程分享地址链接:https://pan.baidu.com/s/1cX7O-45y6yUPT4B-ACfliA密码:jqmk在开始学习前给大家说下什么是Flink?1.Flink是一个针对流数据和批数据的分布式处理引擎,主要用Java代码实现。2.ApacheFlink作为Apache的顶级项目,Flink集众多优点于一身,包括快
分类:
其他好文 时间:
2018-12-07 13:01:22
阅读次数:
238
背景 对于GIS的大数据量实时数据分析和渲染的需求,ArcGIS Server和Geoserver、普通空间数据库往往难以满足,对此我一直感觉很沮丧。这时就要寻求大数据的分布式框架帮助。(ArcGIS的ga也可以,但是太贵) 现状 &ens ...
分类:
其他好文 时间:
2018-11-16 18:49:36
阅读次数:
259
索引 什么是索引? 索引是对数据库表中的一列或多列值进行排序的一种结构,使用索引可以快速访问数据库表中的特定信息。 索引的作用? 索引相当于图书上的目录,可以根据目录上的页码快速找到所需的内容,提高性能(查询速度) 优点: 通过创建唯一性索引,可以保证数据库表中的每一行数据的唯一性。 可以加快数据的 ...
分类:
其他好文 时间:
2018-11-02 23:44:56
阅读次数:
228
Redis是一种面向“key-value”类型数据的分布式NoSQL数据库系统,具有高性能、持久存储、适应高并发应用场景等优势。 本文使用的redis是3.2.1版本。下载后,文件如下 将文件解压到指定的目录,然后打开一个cmd,定位到这个目录,输入:redis-server.exe redis.w ...
分类:
其他好文 时间:
2018-10-05 16:10:00
阅读次数:
142
数据的概括性度量 数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。 集中趋势的度量 分类数据:众数 一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势 ...
分类:
其他好文 时间:
2018-10-04 10:58:36
阅读次数:
299
二值化处理:将细粒度的度量转化成粗粒度的度量,使得特征的差异化更大。 特征多项式交互:捕获特征之间的相关性 数据分布倾斜的处理: log变化:log变化倾向于拉高那些落在较低的幅度范围内自变量的取值,压缩那些落在较高的幅度范围内自变量的取值,log变化能够稳定数据的方差,使数据的分布接近于正太分布并 ...
分类:
其他好文 时间:
2018-09-18 22:58:58
阅读次数:
282