什么是大数据?用于①数据的存储:分布式文件系统(分布式存储)②数据的计算:分布式计算。简单一点就是存储和计算的问题,解决日常海量数据的分析。学习大数据需要什么基础呢?Java基础(Javase):类、类、继承、I/O、反射、泛型等;Linux基础(Linux的操作):创建文件、目录、vi编辑器的使用;Java和大数据都有哪些关系呢?基于Java语言开发→→→Hadoop体系结构、原理、编程第一阶段
分类:
其他好文 时间:
2018-09-01 17:31:34
阅读次数:
160
一、大数据大数据:解决海量数据问题的技术。大数据由巨型数据集组成,把数据集合并进行分析可得出许多额外的信息和数据关系性。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力,适用于大数据的技术,包括大数据技术包括大规模并行处理数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网和可扩展的存储
分类:
其他好文 时间:
2018-08-30 22:45:51
阅读次数:
278
#!/usr/bin/python#coding:utf-8importosimportsysimportreimportparamikoimportcommandsimporttimeimportdatetimedefapache_connect_perform(ip,command):client=paramiko.SSHClient()client.set_missing_host_key_
分类:
编程语言 时间:
2018-08-29 17:56:33
阅读次数:
147
### HDFS分布式文件系统
1. 分布式存储
2. 分布式计算 ### 2、hadoop
hadoop含有四个模块,分别是 common、 hdfs和yarn。
1. common 公共模块。 2. HDFS hadoop distributed file system,hadoop分布式文件系... ...
分类:
其他好文 时间:
2018-08-27 21:29:28
阅读次数:
257
计算机上主要部件有运算器、控制器、存储器、输入输出设备,也就是上图中cpu,内存和其他IO设备,内存作为易失性存储设备,所以需要通过IO设备磁盘来持久化的存储数据。而IO设备这些硬件设备怎么被计算机识别管理呢?不同厂商生产的硬件设备电器工作特性肯定是不一样的,所以生产硬件设备的厂商会提供驱动程序,操 ...
分类:
其他好文 时间:
2018-08-26 01:24:27
阅读次数:
215
FastDfs 分布式文件系统 充分考虑负载均衡,冗余备份,线性扩容,并注重高可用 FastDFS 架构包括 Tracker server 和 Storage server 客户端请求 Tracker server 进行文件上传、下载,通过 Tracker server 调度最终由 Storage ...
分类:
其他好文 时间:
2018-08-25 23:01:47
阅读次数:
167
1.1 分布式文件系统 1.1.1 什么是分布式文件系统 相对于本机端的文件系统而言,分布式文件系统(英语:Distributed file system, DFS),或是网络文件系统(英语:Network File System),是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多 ...
分类:
其他好文 时间:
2018-08-25 20:03:24
阅读次数:
269
原文地址:https://dblab.xmu.edu.cn/blog/290-2/ Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一,如果已经安装了Hadoop,其中就已经包含了HDFS组件,不需要另外安装。 在学习HDF ...
分类:
其他好文 时间:
2018-08-24 22:57:21
阅读次数:
742
1、请简要介绍一下Hadoop、Spark、MPI三种计算框架的特点以及分别适用什么样的场景? Hadoop:基于分布式文件系统HDFS的分布式批处理计算框架,适用于数据量大、SPMD(单程序多数据)的应用 Spark:基于内存计算的并行计算框架,适用于需要迭代多轮计算的应用 MPI:基于消息传递的 ...
分类:
其他好文 时间:
2018-08-21 21:10:07
阅读次数:
194
Kubernetes中部署Heketi和GlusterFS[TOC]1.前言在Kubernetes中,使用GlusterFS文件系统,操作步骤通常是:创建brick-->创建volume-->创建PV-->创建PVC-->Pod挂载PVC如果要创建多个PV,则需要手动重复执行这些繁锁步骤,Heketi可以解决这些重复问题。Heketi是用来管理GlusterFS卷的生命周期
分类:
Web程序 时间:
2018-08-17 16:32:09
阅读次数:
325