在spark中常使用textFile读取文件,默认的是UTF-8编码,但在实际读取文件时,存在不同的文件编码,如果不是UTF-8编码的文件,便不能直接使用这个方法读文件。 以下是2种读取不同编码文件的方法,下面以ANSI的中文简体编码为例,codepage是1252. 方法1:使用decode方法 ...
分类:
其他好文 时间:
2020-06-29 17:21:19
阅读次数:
202
1.Error initializing SparkContext. 20/06/29 05:52:43 INFO yarn.Client: Deleted staging directory hdfs://master:9000/user/hadoop/.sparkStaging/applicat ...
分类:
其他好文 时间:
2020-06-29 15:02:48
阅读次数:
96
用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:
数据库 时间:
2020-06-29 00:44:59
阅读次数:
129
一开始没设置全局id为数据库自增长(数据库也要勾上自增长) 他是默认使用ID_WORKER生成id的 ,然后当我重新设置为自增长后 发现生成的id还是20位数,局部id也设置了 还是没用 ,百度说哪个版本取消了 要代码实现,(还发现很多小伙伴也说配置不生效)但我不是这个版本的 然后就突然想起数据库是 ...
分类:
其他好文 时间:
2020-06-28 22:49:02
阅读次数:
134
from:https://juejin.im/post/5ad4b620f265da23a04a0ad0 看原文代码即可知道本质 Deep Learning On Spark 经过刚才的介绍,我们知道spark是一个分布式的通用计算框架,而以tensorflow为代表的deep learning是一 ...
分类:
其他好文 时间:
2020-06-28 13:38:28
阅读次数:
60
MongoSpark为入口类,调用MongoSpark.load,该方法返回一个MongoRDD类对象,Mongo Spark Connector框架本质上就是一个大号的自定义RDD,加了些自定义配置、适配几种分区器规则、Sql的数据封装等等,个人认为相对核心的也就是分区器的规则实现;弄清楚了其分析 ...
分类:
其他好文 时间:
2020-06-27 21:35:59
阅读次数:
66
vue-worker的使用 1.介绍:改插件将复杂的worker进行了一次的封装,暴露出几个方法简单好用 // 安装插件 npm install vue-worker --save // 在main.js引入使用 import VueWorker from 'vue-worker' Vue.use( ...
分类:
其他好文 时间:
2020-06-27 20:31:43
阅读次数:
222
©著作权归作者所有:来自51CTO博客作者大飞侠大虾的原创作品 mark一下 性能相关配置 worker_processes number | auto; worker进程的数量;通常应该为当前主机的cpu的物理核心数 worker_cpu_affinity auto [cpumask] #将wor ...
分类:
其他好文 时间:
2020-06-27 11:58:47
阅读次数:
96
#user nobody;#开启进程数 <=cpu数worker_processes 1; #错误日志存放位置#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log info; #进程号 ...
分类:
其他好文 时间:
2020-06-27 09:24:13
阅读次数:
50
一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume-style Push-based ...
分类:
Web程序 时间:
2020-06-27 00:19:37
阅读次数:
77