搜索关键字：大数据 scala，搜索到16997个结果！码迷,mamicode.com！

Hive数据仓库之权限管理

Hadoop/Hive自带权限控制集群安全下需求：支持多组件，最好能支持当前大数据技术栈的主要组件，HDFS、HBASE、HIVE、YARN、KAFKA等支持细粒度的权限控制，可以达到HIVE列，HDFS目录，HBASE列,YARN队列开源，社区活跃，按照现有的集群情况改动尽可能的小，而且要符合业界的趋势。现有方案：Hadoop、Hive本身的权限控制Kerberos安全认证ApacheRange

分类：其他好文时间：2020-11-18 12:15:31 阅读次数：8

编译安装大数据平台权限管理组件 - Apache Ranger 3.x

编译Ranger源码首先准备好Java和Maven环境：[root@hadoop01~]#java-versionjavaversion"1.8.0_261"Java(TM)SERuntimeEnvironment(build1.8.0_261-b12)JavaHotSpot(TM)64-BitServerVM(build25.261-b12,mixedmode)[root@hadoop01~]#

分类：Web程序时间：2020-11-18 12:13:58 阅读次数：19

数据库读写分离架构，为什么我不喜欢

RD：单库数据量太大，数据库扛不住了，我要申请一个数据库从库，读写分离。DBA：数据量多少？RD：5000w左右。DBA：读写吞吐量呢？RD：读QPS约200，写QPS约30左右。上周在公司听到两个技术同学讨论，感觉对读写分离解决什么问题没有弄清楚，有些奔溃。另，对于互联网某些业务场景，并不是很喜欢数据库读写分离架构，一些浅见见文末。一、读写分离什么是数据库读写分离？答：一主多从，读写分离，主动同

分类：数据库时间：2020-11-17 13:03:37 阅读次数：27

hadoop和maven

1、大数据有哪些特点？ valume(大量） velocity（高速） variety（多样） value（低价值密度） 2、什么是大数据？指无法在一定的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信 ...

分类：其他好文时间：2020-11-16 13:51:20 阅读次数：9

12个行业月均阅读超100亿，看Spark如何助力微博Feed算法提升活跃度

12个行业月均阅读超100亿，看Spark如何助力微博Feed算法提升活跃度#编者按：本文由高可用架构向黄波约稿，介绍黄波在SparkSummitChina2016中的演讲精华，并侧重对微博系统和Feed系统进行了更多的介绍。黄波，2010年加入新浪微博，微博研发中心Feed技术专家，负责微博Feed流排序和推荐相关项目。目前专注于基于Spark、Storm等计算平台的大数据处理，致力于将分布式计

分类：编程语言时间：2020-11-16 13:06:48 阅读次数：9

毕业设计之 --- 基于opencv和深度学习的车牌识别系统

系统简介车牌识别这个系统，虽然传统，古老，却是包含了所有这四个特侦的一个大数据技术的缩影.在车牌识别中，你需要处理的数据是图像中海量的像素单元；你处理的数据不再是传统的结构化数据，而是图像这种复杂的数据；如果不能在很短的时间内识别出车牌，那么系统就缺少意义；虽然一副图像中有很多的信息，但可能仅仅只有那一小块的信息（车牌）以及车身的颜色是你关心，而且这些信息都蕴含着巨大的价值。也就是说，车牌识别系统

分类：其他好文时间：2020-11-13 12:27:53 阅读次数：4

毕业设计之 --- 基于opencv和深度学习的车牌识别系统

系统简介车牌识别这个系统，虽然传统，古老，却是包含了所有这四个特侦的一个大数据技术的缩影. 在车牌识别中，你需要处理的数据是图像中海量的像素单元；你处理的数据不再是传统的结构化数据，而是图像这种复杂的数据；如果不能在很短的时间内识别出车牌，那么系统就缺少意义；虽然一副图像中有很多的信息，但可能仅仅 ...

分类：其他好文时间：2020-11-13 12:10:58 阅读次数：7

MySQL引擎

常用的存储引擎有以下： Innodb引擎：Innodb引擎提供了对数据库ACID事务的支持。并且还提供了行级锁和外键的约束。它的设计的目标就是处理大数据容量的数据库系统。 MyIASM引擎(原本Mysql的默认引擎)：不提供事务的支持，也不支持行级锁和外键。 MEMORY引擎：所有的数据都在内存中， ...

分类：数据库时间：2020-11-12 14:01:35 阅读次数：9

快速指南：如何创建基于Python的爬虫

Web抓取的使用正在积极增加，特别是在大型电子商务公司中，Web抓取是一种收集数据以竞争，分析竞争对手和研究新产品的方式。Web抓取是一种从网站提取信息的方法。在本篇文章中，学习如何创建基于Python的刮板。深入研究代码，看看它是如何工作的。在当今的大数据世界中，很难跟踪正在发生的一切。对于需要大量信息才能取得成功的企业来说，情况变得更加复杂。但是首先，他们需要以某种方式收集此数据，这意味着他们

分类：编程语言时间：2020-11-12 13:38:18 阅读次数：7

1000亿文本信息，高并发MD5查询，这么大数据量的业务怎么弄？

==星球水友提问==沈老师，你好，想请教一个身份证信息检索的问题。公司有一个每秒5万并发查询的业务，（假设）根据身份证MD5查询身份证信息，目前有1000亿条数据，纯文本存储，前几天看你写LevelDB，请问这个业务能利用LevelDB内存数据库进行存储么？有没有其他优化方案？画外音：LevelDB《内存KV缓存/数据库》。==问题描述完==上一位星球水友问的是36亿日志后台分页查询，紧接着又来了

分类：其他好文时间：2020-11-10 11:30:25 阅读次数：10

共16997条上一页 1 ... 18 19 20 21 22 ... 1700 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)