1 Sqoop概述 传统的应用程序管理系统,即应用程序与使用RDBMS的关系数据库的交互,是产生大数据的来源之一。由RDBMS生成的这种大数据存储在关系数据库结构中的关系数据库服务器中。 当大数据存储和Hadoop生态系统的MapReduce,Hive,HBase,Cassandra,Pig等分析器 ...
分类:
其他好文 时间:
2020-09-03 16:44:55
阅读次数:
40
本文主要介绍什么是ElasticSearch以及为什么需要它,如何在本机安装部署ElasticSearch实例,同时会演示安装ElasticSearch插件,以及如何在本地部署多实例集群,方便在日后学习分布式相关原理。什么是ElasticSearch?ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTfulweb接口。Elasti
分类:
其他好文 时间:
2020-08-28 11:56:53
阅读次数:
55
一.zookeeper集群搭建 1.在linux系统的/usr/local/solr-cloud/下创建3个zookeeper的下载包,代表3台zookeeper服务器 2.分别在zookeeper包下创建data目录,目录中创建名为myid的文件,在该文件里书写一个编号,比如1;代表该节点(zoo ...
分类:
其他好文 时间:
2020-08-27 13:13:40
阅读次数:
43
在机器学习的流程中数据挖掘是重要的一环。数据挖掘是从大量数据中提取隐藏的或未知,但可能有用信息的过程。今天给大家介绍10个最强的数据挖掘工具,欢迎小伙伴们收藏起来。1.KNIMEKNIME可以完成常规的数据分析,进行数据挖掘,常见的数据挖掘算法,如回归、分类、聚类等等都有。而且它引入很多大数据组件,如Hive,Spark等等。它还通过模块化的数据流水线概念,集成了机器学习和数据挖掘的各种组件,能够
分类:
其他好文 时间:
2020-08-24 16:32:14
阅读次数:
59
服役新的节点 1、首先克隆一个新的虚拟机,里面的hadoop等环境都配好了 之后修改ip通过 root进行登录,在原本好的虚拟机上进行分发操作 之后再发java 发环境变量 在新的虚拟机上进行: 这是重新运行环境变量 之后进入hadoop删除data和logs让他变成一个全新的机器 就会发现 dat ...
分类:
其他好文 时间:
2020-08-19 19:07:03
阅读次数:
65
Maven 什么是Maven Maven 在美国是一个口语化的词语,代表专家、内行的意思。一个对 Maven 比较正式的定义是这么说的:Maven 是一个项目管理工具,它包含了一个项目对象模型 (POM:Project Object Model),一组标准集合,一个项目生命周期(Project Li ...
分类:
其他好文 时间:
2020-08-15 22:29:27
阅读次数:
73
通往集群的大门 集群由什么用? 高可用 高可用(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。如果系统每运行100个时间单位,会有1个时间单位无法提供服务,我们说系统的可用性是99%。 负载均衡 将流量均衡的分布在不同的 ...
分类:
其他好文 时间:
2020-08-13 12:29:31
阅读次数:
50
impala有时查询报错内存不足,并持续一段时间后自动恢复,报错时日志如下: org.apache.hive.service.cli.HiveSQLException: ExecQueryFInstances rpc query_id=834c3b2376181f0e:a901620f0000000 ...
分类:
其他好文 时间:
2020-08-10 18:38:19
阅读次数:
242
今日内容:1) hive的自定义函数 (简单会实现即可)2) hive优化部分: 能够理解, 知道有这些优化方案 , 记录 2.1: hive的数据压缩 2.2: hive的数据存储格式 2.3: fetch抓取 2.4: 本地模式 2.5: join的优化 2.6: SQL优化的方案 2.7: 动 ...
分类:
其他好文 时间:
2020-08-10 09:24:13
阅读次数:
57
Kettle巧用公式轻松实现数据抽取(图文并茂,带案例讲解)
分类:
其他好文 时间:
2020-08-08 00:40:05
阅读次数:
93