RDD的持久化是spark优化中必须掌握的,并且,在内存不足的情况下,我们可以将持久化类型选择为MEMORY_ONLY_SER,减少内存的占用,持久化更多的partition,并且不同的序列化方法也会影响序列化性能。
下面,我们就来测试下,持久化级别和序列化方法的选择对RDD持久化大小的影响。
分类:
其他好文 时间:
2019-05-19 20:38:16
阅读次数:
188
现在自然语言处理用深度学习做的比较多,我还没试过用传统的监督学习方法做分类器,比如SVM、Xgboost、随机森林,来训练模型。因此,用Kaggle上经典的电影评论情感分析题,来学习如何用传统机器学习方法解决分类问题。 通过这个情感分析的题目,我会整理做特征工程、参数调优和模型融合的方法,这一系列会 ...
分类:
其他好文 时间:
2019-05-19 11:49:23
阅读次数:
224
1:关闭 SELinux 方法一: #sed -i 's/SELINUX=enforcing/SELINUX=disabled/' /etc/selinux/config #替换文本参数 #grep SELINUX=disabled /etc/selinux/config #查文本状态 #seten ...
分类:
系统相关 时间:
2019-05-19 09:28:39
阅读次数:
122
在性能测试过程中,最重要的一部分就是性能瓶颈定位与调优。而引发性能瓶颈的原因是多种多样的,在之前的博客:常见的性能测试缺陷有进行介绍。 这篇博客,来聊聊性能测试过程中的一些注意事项,以及常见的一些性能缺陷表现及如何进行定位分析并且调优。。。 一、注意事项 1、断言 在压测时,为了判断发送的请求是否成 ...
分类:
其他好文 时间:
2019-05-13 01:12:04
阅读次数:
154
学习linux流程为: |--第1阶段:linux环境下的基本操作命令 文件操作命令(rm mkdir touch chmod chown) 编辑工具使用(vi vim) linux用户管理(useradd userdel usermod) |--第2阶段:linux的各种配置(环境变量配置 网络配 ...
分类:
系统相关 时间:
2019-05-12 13:48:02
阅读次数:
157
30天搞定大数据爬虫项目,数据爬虫、全文检索、数据可视化、爬虫项目监控 ...
分类:
其他好文 时间:
2019-05-12 13:40:10
阅读次数:
272
概述 什么是jvm调优呢?jvm调优就是根据gc日志分析jvm内存分配、回收的情况来调整各区域内存比例或者gc回收的策略;更深一层就是根据dump出来的内存结构和线程栈来分析代码中不合理的地方给予改进。eclipse优化主要涉及的是前者,通过gc日志来分析。本文主要是通过分析eclipse gc日志 ...
分类:
系统相关 时间:
2019-05-11 21:34:18
阅读次数:
171
查看并修改运行时参数的,好像也没用 ceph daemon osd.0 config show | less ceph daemon osd.* help ceph daemon osd.2 config get mon_osd_full_ratioceph tell osd.* injectarg ...
分类:
其他好文 时间:
2019-05-11 21:08:04
阅读次数:
308
由于对象进行了分代处理,因此垃圾回收区域、时间也不一样。GC有两种类型:Scavenge GC和Full GC。 5.1Scavenge GC 一般情况下,当新对象生产,并且在Eden申请空间失败时,就会触发Scavenge GC,堆Eden区域进行GC,清除非存活对象,并且把尚且存活的对象移动到S ...
分类:
其他好文 时间:
2019-05-09 20:21:14
阅读次数:
158
本文以笔者个人经历讲述关于微服务方面的技术选型和相关知识点。微服务模式的项目从初建到上线部署应用,每一个环节都会涉及到相当多的技术细节(上线后的性能调优更需要)。本文着重介绍一套微服务搭建流程中面临的一些技术选型,战略性的技术方案及相关技术的简要介绍,不做每一项技术的深入说明。微服务简介微服务是指开发一个单个小型的但有业务功能的服务,每个服务都有自己的处理和轻量通讯机制,可以部署在单个或多个服务器
分类:
其他好文 时间:
2019-05-08 19:05:37
阅读次数:
133