[TOC] 我们都知道python上的一款可视化工具matplotlib,而前些阵子做一个Spark项目的时候用到了百度开源的一个可视化JS工具 Echarts,可视化类型非常多,但是得通过导入js库在Java Web项目上运行,平时用Python比较多,于是就在想有没有Python与Echarts ...
分类:
其他好文 时间:
2020-04-13 12:21:26
阅读次数:
118
在我们的工作中,很多时候都需要在linux中后台运行程序,方法1:nohup&方法2:daemonizeUnix系统后台守护进程管理软件优点:更加正规后台运?更稳定gitclonegit://github.com/bmc/daemonize.gitshconfigure&&make&&sudomakeinstall[root@dev-hadoop-test0
分类:
系统相关 时间:
2020-04-13 00:49:22
阅读次数:
195
HDFS:Hadoop Distributes File System HDFS 1.0 Namenode namenode又称名称节点,是负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即Fslmage和Editlog.你可以把它理解为大管家,它不负责存储具体的数 ...
分类:
其他好文 时间:
2020-04-13 00:21:47
阅读次数:
241
区别: 1、map是对rdd中每一个元素进行操作 2、mapPartitions是对rdd中每个partition的迭代器进行操作 mapPartitions优点: 1、若是普通map,比如一个partition中有一万条数据,那么function要执行一万次,而使用mapPartions,一个ta ...
分类:
移动开发 时间:
2020-04-12 20:49:23
阅读次数:
80
kafka Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/ngin ...
分类:
其他好文 时间:
2020-04-12 16:38:30
阅读次数:
65
转 :https://www.cnblogs.com/firstsheng618/p/9022879.html MapReduce是一种分布式计算模型,是Hadoop的主要组成之一,承担大批量数据的计算功能。MapReduce分为两个阶段:Map和Reduce。 一、MapReduce的架构演变 客 ...
分类:
其他好文 时间:
2020-04-12 10:29:00
阅读次数:
51
查找文件: [root@bigdata admin]# find . -type f -name "a.txt" ./Downloads/hadoop-2.10.0/a.txt 拥有遍历文件夹功能的 查找关键字 文件、文件夹: [root@bigdata admin]# vi a [root@big ...
分类:
系统相关 时间:
2020-04-11 20:26:04
阅读次数:
98
Eclipse连接不上虚拟机上的hdfs,一直显示Listing folder content,如下图所示: 要做到以下三点: 1. 本身就还没创建输入和输出目录,此时要在hdfs上建个文件夹 。 #bin/hdfs dfs -mkdir –p /user/hadoop/input #bin/hdf ...
[root@localhost ~]#firewall-cmd --state not running [root@bigdata hadoop]# systemctl is-enabled firewalld.service;echo $? (查看服务是否开机启动) enabled 0 [root ...
分类:
系统相关 时间:
2020-04-11 18:17:13
阅读次数:
249
阿帕奇Hadoop Apache?Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。该库本身不依赖于硬件来 ...
分类:
Web程序 时间:
2020-04-11 09:56:47
阅读次数:
102