Problem Description Claire and her little friend, ykwd, are travelling in Shevchenko's Park! The park is beautiful - but large, indeed. N feature spot ...
分类:
其他好文 时间:
2018-09-02 11:10:43
阅读次数:
178
sun.misc.Unsafe.park(Native Method) 关闭tomcat时堆栈溢出 ...
分类:
其他好文 时间:
2018-08-30 16:43:28
阅读次数:
896
这里的 pyspark 是spark安装的文件夹里python文件夹下的,需要复制到anoconda的Lib下site-packages中 代码中没有环境变量的配置,不愿意在本机配置环境变量的可以去查查spark在python中环境变量配置 ...
分类:
数据库 时间:
2018-08-27 18:24:00
阅读次数:
1603
//worker中为Application启动的executor,实际上是启动了这个CoarseGrainedExecutorBackend进程private[spark] class CoarseGrainedExecutorBackend( driverUrl: String, executor ...
分类:
其他好文 时间:
2018-08-26 20:54:22
阅读次数:
209
park支持多种数据源,从总体来分分为两大部分:文件系统和数据库。文件系统中常见的存储格式有:文本文件、json、csv与tsv、sequencefile等。数据库分为关系型数据库(MySQL、PostgreSQL等)与非关系型数据库(HBase,ElasticSearch等)
分类:
其他好文 时间:
2018-08-26 01:16:58
阅读次数:
242
本文主要讲述spark中的基本概念,包括Application、Job、Stage、Task、ClusterManger、Executor、Driver、DAGScheduler、TaskScheduler等。
分类:
其他好文 时间:
2018-08-26 01:13:42
阅读次数:
140
1.RDD又叫弹性分布式数据集 2.抽象 3.带泛型,支持多种数据类型 4.集合是可以进行分区 例如(1,2,3,4,5,6,7,8,9)这个数组是可以进行分区的(1,2,3) (4,5,6) (7,8,9)可以并行计算(这就是分布式计算) RDD5大特性 1.一个RDD有一系列的分区 2.对RDD ...
分类:
其他好文 时间:
2018-08-25 22:17:02
阅读次数:
186
一、K-Means聚类算法 优点: (1)原理简单,实现容易,收敛速度快 (2)球形边界效果较好 缺点: (1)k取值不好把握 (2)非球形边界效果较差 (3)对噪音和异常点较敏感 应用: (1)被大多数搜索引擎用于通过相似性对网页进行聚类,并识别搜索结果的相关率,有助于搜索引擎减少用户的计算时间 ...
分类:
编程语言 时间:
2018-08-21 01:05:00
阅读次数:
248
1、后台程序不能正常运行: 解决办法: 删除对应的jar 包下的文件 2、jar包守护运行: ...
分类:
其他好文 时间:
2018-08-20 14:37:09
阅读次数:
145
win10下Spark的环境搭建 2018-08-19 18:36:45 一、jdk 1.8.0 安装与配置 二、scala 2.11.8 安装与配置 上面两步见《win10下安装scala》 三、spark 2.3.0 安装与配置 1、下载spark:官网地址:http://spark.apach ...