搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

Spark学习（二）win10部署Hadoop+Spark

1.Hadoop （1）安装配置基础只需要配置core-site.xml和hdfs-site.xml就行。参考： https://www.jianshu.com/p/aa8cfaa26790【这个教程的core-site.xml和hdfs-site.xml的内容弄反了，交换一下就行】 http: ...

分类：Windows程序时间：2020-07-14 10:32:49 阅读次数：115

推荐系统大规模特征工程与FEDB的Spark基于LLVM优化

今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践，主要包括以下四个主题。大规模推荐系统特征工程介绍SparkSQL与FESQL架构设计基于LLVM的Spark性能优化推荐系统与Spark优化总结大规模推荐系统特征工程介绍推荐系统在新闻推荐、搜索引擎、广告投放以及最新很火的短视频App中都有非常广阔的应用，可以说绝大部分互联网企业和传统企业都可以通过推荐系统来提升

分类：数据库时间：2020-07-14 09:27:20 阅读次数：72

Spark on K8S （Kubernetes Native）

Spark on K8S 的几种模式 Standalone：在 K8S 启动一个长期运行的集群，所有 Job 都通过 spark-submit 向这个集群提交 Kubernetes Native：通过 spark-submit 直接向 K8S 的 API Server 提交，申请到资源后启动 Pod ...

分类：Web程序时间：2020-07-14 09:25:00 阅读次数：89

Spark小实例（统计出日志中出现排行前10的IP地址）IDEA实现

首先创建好项目工程，如下图：完善pom.xml文件，具体为：（依据自己的spark版本做修改）<dependencies><dependency><groupId>org.scala-lang</groupId><artifactId>scala-library</artifactId><version>2.11.

分类：其他好文时间：2020-07-14 09:21:08 阅读次数：78

Hive 蚂蚁森林案例

蚂蚁森林案例背景说明原始数据样例 user_low_carbon.txt 记录用户每天的蚂蚁森林低碳生活领取的流水数据样例 u_001 2017/1/1 10 u_001 2017/1/2 150 u_001 2017/1/2 110 plant_carbon.txt 记录申领环保植物所需要减少 ...

分类：其他好文时间：2020-07-14 00:35:41 阅读次数：817

Spark 源码解读（一）SparkContext的初始化之TaskScheduler的启动

Spark 源码解读（一）SparkContext的初始化之TaskScheduler的启动 TaskScheduler创建完成之后，需要调用start()方法才可以生效，SparkContext的代码如下： _taskScheduler.start() TaskScheduler在启动的时候，实际 ...

分类：其他好文时间：2020-07-14 00:25:58 阅读次数：81

Parquet模式写入分区错误修改

一、概述将数据以parquet模式写入到hive的分区表中时，底层源码有个错误，在进行分割字段判断时，没有引用已传入字符，多了一个“=”；该错误在hive的client中也会碰到错误原因是底层分割符引用错误，二、解决方法从https://github.com/apache/parquet-m ...

分类：其他好文时间：2020-07-13 21:24:30 阅读次数：75

《数据算法 Hadoop Spark大数据处理技巧》

数据算法 Hadoop Spark大数据处理技巧 ...

分类：编程语言时间：2020-07-13 18:11:22 阅读次数：80

《深度实践Spark机器学习》

tophua/spark-machine-learning-book Spark机器学习书代码 25 Jupyter Notebook Updated on 22 Dec 2017 zengxiaosen/eshop 电商+大数据+spark机器学习 11 Java Updated on 5 Dec ...

分类：其他好文时间：2020-07-13 18:02:05 阅读次数：74

Hadoop进阶命令使用介绍

hadoop生产环境的使用是很复杂的，有些公司是CDH或者Ambari等管理工具运维的，有些是原生的集群俗称裸奔，前者优缺点是运维，查看监控等容易，对于底层理解不友好；裸奔集群反之，裸奔集群的很多东西都需要定制和自己开发，比如监控用zabbix，告警用企业微信，节点的异构严重的，需要二次开发配置文件 ...

分类：其他好文时间：2020-07-13 13:17:45 阅读次数：65

共26003条上一页 1 ... 61 62 63 64 65 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)