搜索关键字：数据的分布，搜索到203个结果！码迷,mamicode.com！

hadoop的mapReduce和Spark的shuffle过程的详解与对比及优化

https://blog.csdn.net/u010697988/article/details/70173104 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark，mapReducehe和Spark之间的最大区别是前者较偏向于离线处理，而后者重视实现性，下面主 ...

分类：其他好文时间：2019-01-12 15:26:19 阅读次数：148

AIchanllger农作物病害分类竞赛思路总结，也是pytorch进行图像分类的一般步骤，下一篇为源代码详解

一、预处理部分 1.拿到数据首先对数据进行分析对数据的分布有一个大致的了解，可以用画图函数查看所有类的分布情况。可以采取删除不合理类的方法来提高准确率；对图像进行分析，在自定义的图像增强的多种方式中，尝试对图像进行变换，看是否存在主观上的特征增强，具体的增强方法在aug.py文件中，可以在线下 ...

分类：其他好文时间：2018-12-16 21:41:10 阅读次数：425

「数据治理那点事」系列之二：手握数据「户口本」，数据治理肯定稳！

这篇文章主要从数据治理的基础和核心之一：元数据入手，从以下几个角度展开具体讲解：元数据概念，元数据的分布和采集，元数据的一些实际应用场景

分类：其他好文时间：2018-12-13 16:31:38 阅读次数：219

Scrapy框架之分布式操作

一、分布式爬虫介绍分布式爬虫概念：多台机器上执行同一个爬虫程序，实现网站数据的分布爬取。 1、原生的Scrapy无法实现分布式爬虫的原因？调度器无法在多台机器间共享：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。管道无法 ...

分类：其他好文时间：2018-12-08 11:17:11 阅读次数：143

Flink视频教程_基于Flink流处理的动态实时电商实时分析系统

Flink视频教程_基于Flink流处理的动态实时电商实时分析系统课程分享地址链接:https://pan.baidu.com/s/1cX7O-45y6yUPT4B-ACfliA密码:jqmk在开始学习前给大家说下什么是Flink？1.Flink是一个针对流数据和批数据的分布式处理引擎，主要用Java代码实现。2.ApacheFlink作为Apache的顶级项目，Flink集众多优点于一身，包括快

分类：其他好文时间：2018-12-07 13:01:22 阅读次数：238

geopyspark入门

背景对于GIS的大数据量实时数据分析和渲染的需求，ArcGIS Server和Geoserver、普通空间数据库往往难以满足,对此我一直感觉很沮丧。这时就要寻求大数据的分布式框架帮助。(ArcGIS的ga也可以，但是太贵) 现状 &ens ...

分类：其他好文时间：2018-11-16 18:49:36 阅读次数：259

索引的优缺点，何时用或不用索引

索引什么是索引？索引是对数据库表中的一列或多列值进行排序的一种结构，使用索引可以快速访问数据库表中的特定信息。索引的作用？索引相当于图书上的目录，可以根据目录上的页码快速找到所需的内容，提高性能（查询速度）优点：通过创建唯一性索引，可以保证数据库表中的每一行数据的唯一性。可以加快数据的 ...

分类：其他好文时间：2018-11-02 23:44:56 阅读次数：228

redis持久化

Redis是一种面向“key-value”类型数据的分布式NoSQL数据库系统，具有高性能、持久存储、适应高并发应用场景等优势。本文使用的redis是3.2.1版本。下载后，文件如下将文件解压到指定的目录，然后打开一个cmd，定位到这个目录，输入：redis-server.exe redis.w ...

分类：其他好文时间：2018-10-05 16:10:00 阅读次数：142

数据挖掘——统计学分析（三：数据的概括性度量）

数据的概括性度量数据的分布特征可从三方面去描述：1）分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度； 2）分布的离散程度，反映各数据远离其中心值的趋势； 3）分布的形状，反映数据分布的偏态和峰态。集中趋势的度量分类数据：众数一组数据中出现次数最多的变量值，主要用于测度分类数据的集中趋势 ...

分类：其他好文时间：2018-10-04 10:58:36 阅读次数：299

连续数值变量的一些特征工程方法：二值化、多项式、数据倾斜处理

二值化处理：将细粒度的度量转化成粗粒度的度量，使得特征的差异化更大。特征多项式交互：捕获特征之间的相关性数据分布倾斜的处理： log变化：log变化倾向于拉高那些落在较低的幅度范围内自变量的取值，压缩那些落在较高的幅度范围内自变量的取值，log变化能够稳定数据的方差，使数据的分布接近于正太分布并 ...

分类：其他好文时间：2018-09-18 22:58:58 阅读次数：282

共203条上一页 1 ... 4 5 6 7 8 ... 21 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)