1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS(Hadoop分布式文件系统)是Hadoop体系中 数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于 ...
分类:
其他好文 时间:
2021-03-02 12:24:42
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:20:23
阅读次数:
0
目前,编程人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂。根据外媒的一项调查报告,以下列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义。 先来看看大数据的概念。根据维基百科,大数据是庞大或复杂的数据集 ...
分类:
编程语言 时间:
2021-03-02 12:15:50
阅读次数:
0
1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 Hadoop对应于Google三驾马车:HDFS对应于GFS,即分布式文件系统,MapReduce即并行计算框架,HBase对应于 ...
分类:
其他好文 时间:
2021-03-02 12:10:47
阅读次数:
0
新浪财经是金融新闻类数据挖掘很重要的一个数据来源,它的新闻质量一般都很高。在这里使用爬虫的方法来获取新浪财经的一些新闻资讯。 第一步: 打开新浪财经网站 第二步: 搜索‘工商银行’ 第三步: 获取新浪财经里的‘工商银行’的url url = 'https://search.sina.com.cn/? ...
分类:
其他好文 时间:
2021-03-02 11:42:14
阅读次数:
0
面试题 一、Hadoop 1.Hadoop面试题总结(一) 2.Hadoop面试题总结(二)——HDFS 3.Hadoop面试题总结(三)——MapReduce 4.Hadoop面试题总结(四)——YARN 5.Hadoop面试题总结(五)——优化问题 二、Zookeeper 1.Zookeeper ...
分类:
其他好文 时间:
2021-03-02 11:41:45
阅读次数:
0
1.概述 在大数据的浪潮下,时时刻刻都会产生大量的数据。比如社交媒体、博客、电子商务等等,这些数据会以不同的类型存储在不同的平台里面。为了执行ETL(提取、转换、加载)操作,需要一个消息中间件系统,该系统应该是异步和低耦合的,即来自各种存储系统(如HDFS、Cassandra、RDBMS等)的数据可 ...
分类:
其他好文 时间:
2021-03-01 13:50:00
阅读次数:
0
大数据分析——数据抓取 IOT数据抓取 1、系统架构 2、架构说明 系统架构分成三层和四个功能 ,三层分布式M2M层、M2C层、平台应用层,四个功能是 数据采集、连接、逻辑处理、存储 M2M层: 主要指的是硬件数据采集层,它包括但设备数据通过NB-IOT、WIFI、4G、5G、RJ45的方式直接上传 ...
分类:
其他好文 时间:
2021-03-01 13:48:41
阅读次数:
0
部分主要阐述 Thread 的基础知识,详细介绍线程的 API 使用、线程安全、线程间数据通信,以及如何保护共享资源等内容,它是深入学习多线程内容的基础。 第二部分引入了 ClassLoader,这是因为 ClassLoader 与线程不无关系,我们可以通过 synchronized 关键字,或者 ...
分类:
编程语言 时间:
2021-03-01 13:34:44
阅读次数:
0
第一部分 分析: 使用selenium获得登陆的cookie,再把cookie传递给requests这种更换请求方式爬取登陆微信公众号平台后的数据,是不行的,所以手动扫码登陆网页的微信公众号平台登陆后,接着使用selenium进行抓取数据等操作(自己分析实践下就知道了) 代码部分: 这里使用Jupy ...
分类:
微信 时间:
2021-03-01 13:22:06
阅读次数:
0