1、概念 * CountVectorizer和CountVectorizerModel旨在帮助将文本文档的集合转换为令牌计数的向量。 * 当先验字典不可用时,CountVectorizer可用作估计器以提取词汇表并生成CountVectorizerModel。 * 该模型为词汇表上的文档生成稀疏向量 ...
分类:
其他好文 时间:
2020-01-09 17:20:32
阅读次数:
108
今天在开发SparkRDD的过程中出现Buffer Overflow错误,查看具体Yarn日志后发现是因为Kryo序列化缓冲区溢出了,日志建议调大spark.kryoserializer.buffer.max的value,搜索了一下设置keyo序列化缓冲区的方法,特此整理记录下来。 ...
分类:
其他好文 时间:
2020-01-09 01:34:15
阅读次数:
187
简单回顾神经网络的历史和直观认识, 还不推导公式哦, 放心老铁, 循序渐进我懂 ...
分类:
其他好文 时间:
2020-01-09 01:31:05
阅读次数:
145
任何Spark程序员都是从SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf对象中包含了Spark集群配置的各种参数。 SparkConf conf = new SparkConf().setMaster("local").setApp ...
分类:
其他好文 时间:
2020-01-08 22:34:05
阅读次数:
79
第1章 初识机器学习 在本章中将带领大家概要了解什么是机器学习、机器学习在当前有哪些典型应用、机器学习的核心思想、常用的框架有哪些,该如何进行选型等相关问题。 1-1 导学试看 1-2 机器学习概述 1-3 机器学习核心思想 1-4 机器学习的框架与选型.. 第2章 初识MLlib 本章中,将介绍S ...
分类:
其他好文 时间:
2020-01-08 21:10:59
阅读次数:
112
目录RDD概述RDD实现RDD运行流程RDD分区RDD操作分类RDD编程接口说明一、RDD概述RDD:是Resilient distributed datasets的简称,中文为弹性分布式数据集;是Spark最核心的模块和类DAG:Spark将计算转换为一个有向无环图(DAG)的任务集合,通过为RD... ...
分类:
其他好文 时间:
2020-01-08 14:43:26
阅读次数:
102
目录包括运行流程图常用术语、执行原理、调度算法、容错及HA、监控 ...
分类:
其他好文 时间:
2020-01-08 14:11:33
阅读次数:
99
系统架构介绍 整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streaming 消费 Kafka 中的消息,同时消费记录由 Zookeeper 集群统一管理,这样即使 Kaf ...
分类:
其他好文 时间:
2020-01-07 11:44:25
阅读次数:
100
1、基本组件栈 了解Spark的朋友会发现Flink的架构和Spark是非常类似的,在整个软件架构体系中,同样遵循着分层的架构设计理念,在降低系统耦合度的同时,也为上层用户构建Flink应用提供了丰富且友好的接口。 https://mmbiz.qpic.cn/mmbiz_png/mqibsuEhdU ...
分类:
其他好文 时间:
2020-01-06 22:31:20
阅读次数:
143
api差异参考官网地址:https://spark.apache.org/docs/2.1.1/sql-programming-guide.html#upgrading-from-spark-sql-16-to-20 1.SparkSession is now the new entry point ...
分类:
其他好文 时间:
2020-01-06 19:23:38
阅读次数:
87