搜索关键字：大数据开发 Hadoop Spark，搜索到19831个结果！码迷,mamicode.com！

pyecharts数据可视化模块

[TOC] 我们都知道python上的一款可视化工具matplotlib,而前些阵子做一个Spark项目的时候用到了百度开源的一个可视化JS工具 Echarts，可视化类型非常多，但是得通过导入js库在Java Web项目上运行，平时用Python比较多，于是就在想有没有Python与Echarts ...

分类：其他好文时间：2020-04-13 12:21:26 阅读次数：118

daemonize Unix系统后台守护进程管理软件

在我们的工作中，很多时候都需要在linux中后台运行程序，方法1：nohup&方法2：daemonizeUnix系统后台守护进程管理软件优点：更加正规后台运?更稳定gitclonegit://github.com/bmc/daemonize.gitshconfigure&&make&&sudomakeinstall[root@dev-hadoop-test0

分类：系统相关时间：2020-04-13 00:49:22 阅读次数：195

HDFS原理学习

HDFS：Hadoop Distributes File System HDFS 1.0 Namenode namenode又称名称节点，是负责管理分布式文件系统的命名空间（Namespace）,保存了两个核心的数据结构，即Fslmage和Editlog.你可以把它理解为大管家，它不负责存储具体的数 ...

分类：其他好文时间：2020-04-13 00:21:47 阅读次数：241

spark中map和mapPartitions算子的区别

区别： 1、map是对rdd中每一个元素进行操作 2、mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点： 1、若是普通map，比如一个partition中有一万条数据，那么function要执行一万次，而使用mapPartions，一个ta ...

分类：移动开发时间：2020-04-12 20:49:23 阅读次数：80

kafka简单介绍

kafka Kafka是最初由Linkedin公司开发，是一个分布式、支持分区的、多副本的，基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/ngin ...

分类：其他好文时间：2020-04-12 16:38:30 阅读次数：65

MapReducer

转 :https://www.cnblogs.com/firstsheng618/p/9022879.html MapReduce是一种分布式计算模型，是Hadoop的主要组成之一，承担大批量数据的计算功能。MapReduce分为两个阶段：Map和Reduce。一、MapReduce的架构演变客 ...

分类：其他好文时间：2020-04-12 10:29:00 阅读次数：51

LINUX 拥有遍历文件夹功能的查找关键字文件、文件夹

查找文件： [root@bigdata admin]# find . -type f -name "a.txt" ./Downloads/hadoop-2.10.0/a.txt 拥有遍历文件夹功能的查找关键字文件、文件夹： [root@bigdata admin]# vi a [root@big ...

分类：系统相关时间：2020-04-11 20:26:04 阅读次数：98

Windows下的Eclipse连接不上虚拟机上的hdfs，一直显示Listing folder content的解决方案

Eclipse连接不上虚拟机上的hdfs，一直显示Listing folder content，如下图所示：要做到以下三点： 1. 本身就还没创建输入和输出目录，此时要在hdfs上建个文件夹。 #bin/hdfs dfs -mkdir –p /user/hadoop/input #bin/hdf ...

分类：Windows程序时间：2020-04-11 18:28:41 阅读次数：273

LINUX CentOS 8 systemctl firewall 防火墙开启/关闭命令

[root@localhost ~]#firewall-cmd --state not running [root@bigdata hadoop]# systemctl is-enabled firewalld.service;echo $? （查看服务是否开机启动） enabled 0 [root ...

分类：系统相关时间：2020-04-11 18:17:13 阅读次数：249

Apache Hadoop

阿帕奇Hadoop Apache?Hadoop®项目开发了用于可靠，可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。该库本身不依赖于硬件来 ...

分类：Web程序时间：2020-04-11 09:56:47 阅读次数：102

共19831条上一页 1 ... 93 94 95 96 97 ... 1984 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)