一.Flume定义 ? Flume是Cloudera公司提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 ? Flume最主要的作用就是,实时读取服务器的本地磁盘的数据,将数据写入到HDFS。 二.Flume基础架构 ? Flume基本组成架构如下 ...
分类:
Web程序 时间:
2020-07-03 23:51:14
阅读次数:
112
下载地址:http://www.pcfcms.com/article/mobanzhongxin.html ...
分类:
其他好文 时间:
2020-07-01 11:09:27
阅读次数:
78
算法、算力与数据是人工智能发展的三大基本要素。其中数据是基础,为算法提供了底层支撑。如果将算法比作一辆汽车,那么数据就是推动汽车前进的“燃料”。 目前,企业应用人工智能算法要经历研发、训练和落地三个阶段,每个阶段都需要有海量基础数据集的支撑。 在不同的阶段内,算法所处的状态不同,对于AI数据标注行业 ...
分类:
编程语言 时间:
2020-06-30 17:13:26
阅读次数:
51
参考《人人都是架构师》 大型网站几乎时时刻刻都在接收着高并发和海量数据的洗礼,随着用户规模的线性上升,单库的性能瓶颈会逐渐暴露出来,由于数据的检索效率越来越慢,导致生产环境中产生较多的慢速SQL。对于非结构化数据,可以采用将其存储在NoSQL数据中来提升性能,但是重要的业务数据,仍然要落盘在关系型数 ...
分类:
数据库 时间:
2020-06-29 00:11:53
阅读次数:
82
优点 支持海量高并发(官方说是5W个) 内存消耗少 免费使用可以商业化 配置文件简单 ...
分类:
其他好文 时间:
2020-06-28 12:44:46
阅读次数:
39
Python 程序员深度学习的“四大名著”: 这四本书着实很不错!我们都知道现在机器学习、深度学习的资料太多了,面对海量资源,往往陷入到“无从下手”的困惑出境。而且并非所有的书籍都是优质资源,浪费大量的时间是得不偿失的。 给大家推荐这几本好书并做简单介绍: 1、《Deep Learning with ...
分类:
编程语言 时间:
2020-06-27 20:04:15
阅读次数:
132
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是 原理 simhash值的生成图解如下: 大概花三分钟看懂这个图就差不多怎么实现 ...
分类:
其他好文 时间:
2020-06-27 16:07:33
阅读次数:
63
Hadoop是一个能够对海量数据进行分布式处理的系统架构,主要包含3大块:分布式存储系统HDFS(Hadoop Distributed File System)分布式存储层、分布式计算框架MapReduce分布式计算层、资源管理系统YARN(Yet Another Resource Negotiat... ...
分类:
其他好文 时间:
2020-06-27 11:40:19
阅读次数:
93
接入百度小程序海量流量就在使用Zoomla!逐浪CMS开发栈 这里有最强的CMS内核依托于国家高新企业Zoomla!逐浪之上 这里有最海量的用户流量依托于百度小程序 这里有最开放的技术栈 这里有最卓越的用户体验 接入百度小程序海量流量就在使用Zoomla!逐浪CMS开发栈 逐浪CMS x 百度小程序 ...
分类:
微信 时间:
2020-06-25 23:39:35
阅读次数:
145
全文搜索属于最常见的需求,开源的 Elasticsearch (以下简称 Elastic)是目前全文搜索引擎的首选。 它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。 Elastic 的底层是开源库 Lucene。但是,你没法直接用 Lucene ...
分类:
其他好文 时间:
2020-06-25 23:17:58
阅读次数:
89