1.下载喜欢的电子书或大量文本数据,并保存在本地文本文件中 2编写map与reduce函数 3本地测试map与reduce 4将文本数据上传至HDFS上 5.用hadoop streaming提交任务 6.查看运行结果 7.计算结果取回到本地 ...
分类:
其他好文 时间:
2020-11-07 16:17:20
阅读次数:
18
机器学习平台痛点与模型提升方法:基于Spark的机器学习平台在点融网风控应用介绍编者按:大数据和机器学习是近年来快速增长的热门领域,各个领域的数据量和数据规模都以惊人的速度增长。本文是近期举行的架构实践日点融网刘利就“机器学习平台在点融网业务的应用介绍”这一话题的精彩分享。作者简介:刘利,点融网DataScientistTeam负责人,从事互联网数据分析和数据挖掘近十年。现任点融网DataScie
分类:
其他好文 时间:
2020-11-07 15:58:21
阅读次数:
20
关于概念的东西,其实官网说的很全,对于个人理解就是,flink、spark等等大数据处理平台就是把原来需要我们自己实现的功能,全部框架封装好,像是跨机器的大规模计算、内存/cpu等等资源管理、状态管理(锁还有恢复机制等等)框架全部封装好了,作为开发来说就只需要关心自己要实现的业务就可以了以下内容来自官网,从3个方面介绍Flink:架构ApacheFlink是一个框架和分布式处理引擎,用于在无边界和
分类:
其他好文 时间:
2020-11-06 02:27:17
阅读次数:
21
基本概念部分,批处理和流处理的区别批处理在大数据世界有着悠久的历史,比较典型的就是spark。批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征:(1)有界:批处理数据集代表数据的有限集合(2)持久:数据通常始终存储在某种类型的持久存储位置中(3)大量:批处理操作通常是处理极为海量数据集的唯一方法批处理非常适合需要访问全套记录才能完成的计算工作。例
分类:
其他好文 时间:
2020-11-06 02:26:18
阅读次数:
29
CitrixXenDesktopAgent在Windows7/XP安装了5.6版本的XenDesktop之后,默认增加一个开机弹出窗口“欢迎使用CitrixXenDesktop”如果桌面是Pool(池)/Streaming(pvs推送)类型的,即使勾上了“以后不再显示欢迎界面”的复选框,因为池桌面“关机即还原”的作用,每次用户登录windows7/XP的VDI,仍然会弹出欢迎界面。所以需要在模板w
分类:
其他好文 时间:
2020-11-06 02:22:57
阅读次数:
25
Spark2.4新特性概述导读:Spark官方于今年11月份新发布了Spark2.4。那么新版本的Spark都有哪些值得了解的新特性?应对大数据领域的诸多方案,Spark目前是什么样的状况?未来会有怎样的规划?来自ApacheSparkPMC的大牛为我们讲述Spark的进击与挑战。11月23~24日,GIAC全球互联网架构大会将于上海举行。GIAC是高可用架构技术社区推出的面向架构师、技术负责人及
分类:
其他好文 时间:
2020-11-06 00:53:40
阅读次数:
19
PostgreSQL是一个开放源代码,功能强大,具有弹性和容错性的关系数据库管理系统,可为许多关键任务应用程序提供支持。PostgreSQL数据库基于POSTGRES4.2。截至目前为止,PostgreSQL的最新稳定版本为版本13。有关PostgreSQL13的所有新功能,改进和错误修复报告,可在官方发行页面上找到。以下是PostgreSQL13一些值得注意的新功能:B树索引条目的重复数据删除带
分类:
数据库 时间:
2020-11-04 18:12:29
阅读次数:
29
你知道的越多,你不知道的越多前言上次我们提到了乐观锁和悲观锁,那我们知道锁的类型还有很多种,我们今天简单聊一下,公平锁和非公平锁两口子,以及他们在我们代码中的实践。正文开始聊之前,我先大概说一下他们两者的定义,帮大家回顾或者认识一下。公平锁:多个线程按照申请锁的顺序去获得锁,线程会直接进入队列去排队,永远都是队列的第一位才能得到锁。优点:所有的线程都能得到资源,不会饿死在队列中。缺点:吞吐量会下降
分类:
其他好文 时间:
2020-11-01 10:47:53
阅读次数:
14
前言相信经过前面几篇之后,大家已经对Dubbo整体流程已经清晰了,包括服务是如何暴露的,服务是什么时候注册到注册中心的,以及服务是怎么引入的,服务整体的调用过程等等。不过还有一个很重要的点没有深入的讲过,就是Dubbo的集群容错功能。线上的服务肯定都是集群部署的,至少得来个两台,互相做backup,那么问题来了,服务消费者要选用哪一台提供者进行调用呢?调用失败了怎么办呢?这时候集群容错功能就派上用
分类:
其他好文 时间:
2020-10-31 02:07:57
阅读次数:
15
GTID模式介绍一、GTID Replication介绍从MySQL5.6开始增加了强大的GTID(Global Transaction ID,全局事务ID)这个特性,用来强化数据库的主备一致性, 故障恢复, 以及容错能力。用于取代过去传统的主从复制(即:基于binlog和position的异步复制 ...
分类:
数据库 时间:
2020-10-31 01:48:41
阅读次数:
29