码迷,mamicode.com
首页 >  
搜索关键字:数据的分布    ( 203个结果
hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化
https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主 ...
分类:其他好文   时间:2019-01-12 15:26:19    阅读次数:148
AIchanllger农作物病害分类竞赛思路总结,也是pytorch进行图像分类的一般步骤,下一篇为源代码详解
一、预处理部分 1.拿到数据首先对数据进行分析 对数据的分布有一个大致的了解,可以用画图函数查看所有类的分布情况。可以采取删除不合理类的方法来提高准确率; 对图像进行分析,在自定义的图像增强的多种方式中,尝试对图像进行变换,看是否存在主观上的特征增强,具体的增强 方法在aug.py文件中,可以在线下 ...
分类:其他好文   时间:2018-12-16 21:41:10    阅读次数:425
「数据治理那点事」系列之二:手握数据「户口本」,数据治理肯定稳!
这篇文章主要从数据治理的基础和核心之一:元数据 入手,从以下几个角度展开具体讲解:元数据概念,元数据的分布和采集,元数据的一些实际应用场景
分类:其他好文   时间:2018-12-13 16:31:38    阅读次数:219
Scrapy框架之分布式操作
一、分布式爬虫介绍 分布式爬虫概念:多台机器上执行同一个爬虫程序,实现网站数据的分布爬取。 1、原生的Scrapy无法实现分布式爬虫的原因? 调度器无法在多台机器间共享 :因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。 管道无法 ...
分类:其他好文   时间:2018-12-08 11:17:11    阅读次数:143
Flink视频教程_基于Flink流处理的动态实时电商实时分析系统
Flink视频教程_基于Flink流处理的动态实时电商实时分析系统课程分享地址链接:https://pan.baidu.com/s/1cX7O-45y6yUPT4B-ACfliA密码:jqmk在开始学习前给大家说下什么是Flink?1.Flink是一个针对流数据和批数据的分布式处理引擎,主要用Java代码实现。2.ApacheFlink作为Apache的顶级项目,Flink集众多优点于一身,包括快
分类:其他好文   时间:2018-12-07 13:01:22    阅读次数:238
geopyspark入门
背景     对于GIS的大数据量实时数据分析和渲染的需求,ArcGIS Server和Geoserver、普通空间数据库往往难以满足,对此我一直感觉很沮丧。这时就要寻求大数据的分布式框架帮助。(ArcGIS的ga也可以,但是太贵) 现状  &ens ...
分类:其他好文   时间:2018-11-16 18:49:36    阅读次数:259
索引的优缺点,何时用或不用索引
索引 什么是索引? 索引是对数据库表中的一列或多列值进行排序的一种结构,使用索引可以快速访问数据库表中的特定信息。 索引的作用? 索引相当于图书上的目录,可以根据目录上的页码快速找到所需的内容,提高性能(查询速度) 优点: 通过创建唯一性索引,可以保证数据库表中的每一行数据的唯一性。 可以加快数据的 ...
分类:其他好文   时间:2018-11-02 23:44:56    阅读次数:228
redis持久化
Redis是一种面向“key-value”类型数据的分布式NoSQL数据库系统,具有高性能、持久存储、适应高并发应用场景等优势。 本文使用的redis是3.2.1版本。下载后,文件如下 将文件解压到指定的目录,然后打开一个cmd,定位到这个目录,输入:redis-server.exe redis.w ...
分类:其他好文   时间:2018-10-05 16:10:00    阅读次数:142
数据挖掘——统计学分析(三:数据的概括性度量)
数据的概括性度量 数据的分布特征可从三方面去描述:1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 2)分布的离散程度,反映各数据远离其中心值的趋势; 3)分布的形状,反映数据分布的偏态和峰态。 集中趋势的度量 分类数据:众数 一组数据中出现次数最多的变量值,主要用于测度分类数据的集中趋势 ...
分类:其他好文   时间:2018-10-04 10:58:36    阅读次数:299
连续数值变量的一些特征工程方法:二值化、多项式、数据倾斜处理
二值化处理:将细粒度的度量转化成粗粒度的度量,使得特征的差异化更大。 特征多项式交互:捕获特征之间的相关性 数据分布倾斜的处理: log变化:log变化倾向于拉高那些落在较低的幅度范围内自变量的取值,压缩那些落在较高的幅度范围内自变量的取值,log变化能够稳定数据的方差,使数据的分布接近于正太分布并 ...
分类:其他好文   时间:2018-09-18 22:58:58    阅读次数:282
203条   上一页 1 ... 4 5 6 7 8 ... 21 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!