1.概念 1.1什么是hadoop? hadoop 是大数据存储和处理的框架,主要组成为文件存储系统hdfs和分布式计算框架mapreduce。 1.2能做什么,擅长做什么,不擅长做什么? 1.2.1能做什么,如何做? hadoop 支持处理TB,PB级别的文件。举个栗子:如100M的文件,过滤出含 ...
分类:
其他好文 时间:
2018-06-09 16:40:43
阅读次数:
190
dubbo是一个高性能的,基于java的,开源RPC框架,主要功能是让构建分布式计算更加容易。 (分布式:多台计算机实现不同功能,形成一个整体对外服务) (集群式:多台计算机实现相同功能,分担计算压力) Dubbo采用单一长连接和NIO异步请求,适合小数据量大并发的服务调用,不适合传送大数据量的服务 ...
分类:
其他好文 时间:
2018-06-06 12:24:02
阅读次数:
157
一:hdfs设计原理 负载均衡,考虑分布式计算 -->block机制 二:block默认大小为128m,【hadoop2.0版本以上】,之前都是64m。 原因:默认传输效率10M/s 寻址时间占传输时间的1% 寻址时间为10ms 总结:block是物理的,真正存储的位置在本地磁盘{hadoop.tm ...
分类:
其他好文 时间:
2018-06-05 15:20:27
阅读次数:
213
在大规模的Linux应用环境中,如Web群集、分布式计算等,服务器往往并不配置光驱设备,在这种情况我们就要使用PXE批量装机,而传统的USB光驱、移动硬盘等安装方法显然已经力所不逮。
PXE(preboot execute environment,预启动执行环境)是由Intel公司开发的最新技术,工作于Client/Server的网络模式,支持工作站通过网络从远端服务器下载映像,并加载安装文件或者整个操作系统。而要搭建PXE网络体系,必须满足几个前提条件:1.客户机的网卡支持PXE协议(集成BOOTROM芯片),且主板支持网络引导;2.网络中有一台DHCP服务器以便为客户机自动分配IP地址、指定引导文件位置;3.服务器通过TFTP(Trivial Transfer Protocol,简单文件传输协议)提供引导镜像文件的下载。
分类:
其他好文 时间:
2018-05-29 17:43:40
阅读次数:
223
一、概述概念:是一个可靠的、可伸缩的、分布式计算的开源软件。是一个框架,允许跨越计算机集群的大数据及分布式处理,使用简单的编程模型(mapreduce)可从单台服务器扩展至几千台主机,每个节点提供了计算和存储功能。不依赖于硬件处理HA,在应用层面实现特性4V:volumn体量大velocity速度快variaty样式多value价值密度低模块:hadoopcommon公共类库,支持其他模块HDFS
分类:
其他好文 时间:
2018-05-22 16:41:52
阅读次数:
210
转:http://www.cnblogs.com/luotianshuai/p/5206662.html Kafka初识 1、Kafka使用背景 在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题: 我们想分析下用户行为(pageviews),以便我们设计出更好的广告位 我想 ...
分类:
其他好文 时间:
2018-05-19 13:55:42
阅读次数:
147
一、Hadoop框架 1.HDFS(分布式文件系统) 2.MapReduce(分布式计算框架) 3.YARN(集群资源管理器) 4.Zookeeper(分布式协作服务) 5.Ambari(管理工具) 二、Spark(内存计算框架) 1.Scala 2.Spark SQL 3.Spark Stream ...
分类:
其他好文 时间:
2018-05-18 11:28:00
阅读次数:
137
在大规模的Linux应用环境中,利用传统的光驱、U盘安装操作系统方式过于缓慢,如web群集,分布式计算等,需要为数十乃至上百台服务器裸机快速安装系统,这里就需要用到PXE网络装机以及实现无人值守自动安装。1、安装所需服务yuminstalltftp-server-y//tftp服务提供压缩内核和系统引导程序vi/etc/xinetd.d/tftpservicetftp{socket_type=dg
分类:
其他好文 时间:
2018-05-16 22:19:30
阅读次数:
151
NoSQL简介 NoSQL,全名为Not Only SQL,指的是非关系型的数据库 随着访问量的上升,网站的数据库性能出现了问题,于是nosql被设计出来 优点/缺点 优点: 高可扩展性 分布式计算 低成本 架构的灵活性,半结构化数据 没有复杂的关系 缺点: 没有标准化 有限的查询功能(到目前为止) ...
分类:
其他好文 时间:
2018-05-15 10:46:41
阅读次数:
133
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 让我们来看一下机器学习是如何应用于医护行业以及如何借助Apache Spark对患者的监控数据进行处理 现如今,IoT数据,实时流式数据分析(streaming analytics),机器学习以及分布式计算的组合相比之前有了长足的进步,同时 ...
分类:
其他好文 时间:
2018-05-14 19:47:42
阅读次数:
247