码迷,mamicode.com
首页 >  
搜索关键字:flume spark sparkflumeprotocol    ( 7976个结果
nifi生产环境使用
Nifi生产环境使用 1、服务器日志目录内的 log 文件中,我们使用 Apache Flume 这个工具将原始数据抽取出来 kafka sink , 2、Nifi接入kafka数据。 首先做验证,然后过滤格式错误记录,然后路由不同的日志类型. nifi能做到这些的关键在于它的 flowfile 这 ...
分类:其他好文   时间:2020-06-23 15:17:07    阅读次数:98
采集数据到HDFS
采集数据到HDFS 安装flume在虚拟机hdp-1中, 打开SFTP-hdp-1窗口,将fllume压缩包导入到虚拟机hdp-1的/root/目录中. 解压flume压缩包到/root/apps/下,命令: tar -xvzf apache-flume-1.6.0-bin.tar.gz -C ap ...
分类:其他好文   时间:2020-06-23 13:03:55    阅读次数:59
奈学教育《大数据开发工程师》课程大纲
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用真实的企业级实时数仓项目、离线数仓项目、PB级实时用户行为分析系统、千亿级实时广告系统等多个大型项目
分类:其他好文   时间:2020-06-22 19:15:45    阅读次数:50
奈学教育《大数据开发工程师》课程大纲
本课程针对企业不同数据规模技术方案进行讲解,紧贴企业热门需求,深入讲解企业级大数据技术的数据存储技术、数据采集技术、数据处理技术、任务调度技术等;课程针对知识点进行企业级案例式教学,理论结合实战,从0到1构建大数据生态技术的方方面面,内容涵盖大数据平台、Spark、Flink、OLAP等核心技术;用 ...
分类:其他好文   时间:2020-06-22 18:50:44    阅读次数:295
大数据结构生态体系
数据来源层 数据库 日志 视频,ppt 数据传输层 Sqoop数据传递 Flume日志收集 kafka消息队列 数据存储层 HDFS文件存储 HBase非关系型数据库 kafka(存储少量数据) 资源管理层 YARN资源管理 数据计算层 MapReduce离线计算 Hive数据查询 Mahout数据 ...
分类:其他好文   时间:2020-06-22 00:56:04    阅读次数:83
想了解大数据的鼻祖Hadoop技术栈,这里有一份优质书单推荐!
? 如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系?对于大部分人来说都是傻傻分不清楚。 今年来大数据、人工智能获得了IT界大量的关注。如果一个企业不玩大数据,都不好意思说自己是在IT圈混的。我敢打赌,你在中关村西二旗地铁站溜一圈,保准你会听到如下名词:Had ...
分类:其他好文   时间:2020-06-20 23:54:38    阅读次数:100
基于Kafka的实时计算引擎:Flink能否替代Spark?
根据IBM的统计报告显示,过去两年内,当今世界上90%的数据产生源于新设备、传感器以及技术的出现,数据增长率也会为此加速。而从技术上将,这意味着大数据领域,处理这些数据将变得更加复杂和具有挑战性。例如移动应用广告、欺诈检测、出租车预订、患者监控等场景处理时,需要对实时数据进行实时处理,以便做出快速可行的决策。目前业界有开源不少实时计算引擎,以Apache基金会的两款开源实时计算引擎最受欢迎,它们分
分类:其他好文   时间:2020-06-20 09:12:52    阅读次数:230
spark 参数设置
https://blog.csdn.net/u012102306/article/details/51637366 /bin/spark-submit \ --master yarn-cluster \ --num-executors 100 \ --executor-memory 6G \ --e ...
分类:其他好文   时间:2020-06-19 12:03:23    阅读次数:58
spark数据分区数量的原理
原始RDD或数据集中的每一个分区都映射一个或多个数据文件, 该映射是在文件的一部分或者整个文件上完成的。 Spark Job RDD/datasets在执行管道中,通过根据分区到数据文件的映射读取数据输入到RDD/dataset。 如何根据某些参数确定spark的分区数? 影响数据分区数的参数: ( ...
分类:其他好文   时间:2020-06-18 13:16:01    阅读次数:66
flume开发总结
1,kafka包含3个组件:source、channel、sink source:1.7以上的版本提供了 TaildirSource,支持断点续传,1.6前的版本,需要自己开发程序,存储flume读取的文件位置,以便后续接着读取数据。 channel: FileChannel:数据存储在磁盘上,稳定 ...
分类:Web程序   时间:2020-06-17 11:20:34    阅读次数:72
7976条   上一页 1 ... 29 30 31 32 33 ... 798 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!