码迷,mamicode.com
首页 >  
搜索关键字:ambari hadoop hbase hive spark    ( 26003个结果
【译】Using .NET for Apache Spark to Analyze Log Data
.NET for Spark可用于处理成批数据、实时流、机器学习和ad-hoc查询。在这篇博客文章中,我们将探讨如何使用.NET for Spark执行一个非常流行的大数据任务,即日志分析。 1 什么是日志分析? 日志分析的目标是从这些日志中获得有关工具或服务的活动和性能的有意义的见解。NET fo ...
分类:Web程序   时间:2020-05-11 09:13:31    阅读次数:92
3、Hive-sql优化,数据倾斜处理
一、Hive-sql优化 #增加reducer任务数量(拉取数量分流) set mapred.reduce.tasks=20; #在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true; #增加同一个sql允许并行任务的最大线程数 s ...
分类:数据库   时间:2020-05-11 01:21:52    阅读次数:80
《Spark大数据处理:技术、应用与性能优化》
链接:https://pan.baidu.com/s/1nGkLfRy9izODONbMbLO8rA 提取码:rjpn ...
分类:其他好文   时间:2020-05-10 23:13:35    阅读次数:61
Spark内核源码解析四:SparkContext原理解析和源码解析
源码解析 主构造函数代码 private[spark] var (schedulerBackend, taskScheduler) = SparkContext.createTaskScheduler(this, master) createTaskScheduler,创建TaskScheduler ...
分类:其他好文   时间:2020-05-10 23:08:55    阅读次数:63
flink常见的核心概念
在 Flink 这个框架中,有很多独有的概念,比如分布式缓存、重启策略、并行度等,这些概念是我们在进行任务开发和调优时必须了解的,这一课时我将会从原理和应用场景分别介绍这些概念。 分布式缓存熟悉 Hadoop 的你应该知道,分布式缓存最初的思想诞生于 Hadoop 框架,Hadoop 会将一些数据或 ...
分类:其他好文   时间:2020-05-10 22:47:20    阅读次数:125
真香!PySpark整合Apache Hudi实战
1. 准备 Hudi支持Spark 2.x版本,你可以点击如下 "链接" 安装Spark,并使用pyspark启动 spark avro模块需要在 packages显示指定 spark avro和spark的版本必须匹配 本示例中,由于依赖spark avro_2.11,因此使用的是scala2.1 ...
分类:Web程序   时间:2020-05-10 17:37:32    阅读次数:124
Spark读取Mysql,Redis,Hbase数据(一)
1、读取Mysql数据 object JdbcRddDemo { def getConn() = { Class.forName("com.mysql.jdbc.Driver").newInstance() DriverManager.getConnection("jdbc:mysql://hado ...
分类:数据库   时间:2020-05-10 17:31:37    阅读次数:97
Programmatically add an application to Windows Firewall
Programmatically add an application to Windows Firewall 回答1 Not sure if this is the best way, but running netsh should work: netsh firewall add allowe ...
分类:移动开发   时间:2020-05-10 15:15:24    阅读次数:86
I5TING_TOC转成的HTML,怎样高亮代码
找到安装位置全局安装一般在默认位置C:\Users\administrator\AppData\Roaming\npm\node_modules\i5ting_toc 修改marked.jsi5ting_toc\node_modules\marked\lib\marked.js将第804行修改如下 ...
分类:Web程序   时间:2020-05-10 13:22:49    阅读次数:114
分布式CAP定理,为什么不能同时满足三个特性
在弄清楚这个问题之前,我们先了解一下什么是分布式的CAP定理。 根据百度百科的定义,CAP定理又称CAP原则,指的是在一个分布式系统中,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),最多只能同时三个特性中的两个,三者不可 ...
分类:其他好文   时间:2020-05-10 12:35:44    阅读次数:235
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!