搜索关键字：ambari hadoop hbase hive spark，搜索到26003个结果！码迷,mamicode.com！

Hive 操作与应用词频统计

一、hive用本地文件进行词频统计 1.准备本地txt文件 2.启动hadoop，启动hive 3.创建数据库，创建文本表 4.映射本地文件的数据到文本表中 5.hql语句进行词频统计交将结果保存到结果表中。 6.查看统计结果二、hive用HDFS上的文件进行词频统计 1.准备电子书或其它大的文本 ...

分类：其他好文时间：2020-12-10 10:55:10 阅读次数：3

HADOOP之HDFS用idea操作(五)

使用idea操作HDFS、创建文件、上传文件、获取块信息、下载文件 1.搭建maven工程 2.pom依赖  <dependency> <groupI ...

分类：其他好文时间：2020-12-09 12:24:14 阅读次数：6

Hive 操作与应用词频统计

一、hive用本地文件进行词频统计 1.准备本地txt文件 mkdir wc cd wc echo "hadoop hbase" > f1.txt echo "hadoop hive" > f2.txt 2.启动hadoop，启动hive start-all.sh hive 3.创建数据库，创建文本 ...

分类：其他好文时间：2020-12-09 12:15:14 阅读次数：5

ansible部署jdk

[root@node1 tasks]# cat main.yml name: 拷贝JKD到目标服务器 unarchive: src={{ jdk_pkg }} dest={{ jdk_dir }} mode=755 name: 添加环境变量 blockinfile: dest: /etc/profi ...

分类：其他好文时间：2020-12-09 12:12:06 阅读次数：6

Java层反调试

安卓程序动态调试需要满足两个条件。1.在AndroidMainfest.xml文件中，在application标签下，Android:debuggable=true。2.系统默认调式，在build.prop(boot.img),ro.debugable=1。一：实例演示java层反调试以“百度加固”为例。1.将样本拖入jdax-gui中，进行反编译,来到加固程序的onCreate里，如下图所示。2

分类：编程语言时间：2020-12-09 11:59:17 阅读次数：6

Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理

利用Spark往Hive中存储parquet数据，针对一些复杂数据类型如map、array、struct的处理遇到的问题？为了更好的说明导致问题 ...

分类：其他好文时间：2020-12-08 12:44:11 阅读次数：4

HBase中Memstore存在的意义以及多列族引起的问题和设计

HBase在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。HFile是存储在hdfs上的，WAL预写日志也是，但Memstore是在内存的 ...

分类：其他好文时间：2020-12-07 12:09:37 阅读次数：4

部署单机版的hadoop+hive小记

前言在本机模拟器的ubuntu18版本上进行的部署测试，参考的官方文档： hadoop: 链接地址 hive: 链接地址使用的版本： hadoop: 3.2.1 hive: 3.1.2 全程是使用root账号进行的配置。 hadoop安装配置 hadoop使用的是虚拟集群，即单机模拟集群，dat ...

分类：其他好文时间：2020-12-05 10:52:38 阅读次数：7

lucene实战--打分算法没有那么难？

准备工作1.1下载最新源码，https://github.com/apache/lucene-solr1.2编译，按照说明，使用ant进行编译(我使用了anteclipse)1.3.将编译后的文件导入到eclipse，sts或者idea中2.新建测试类publicvoidtest()throwsIOException,ParseException{Analyzeranalyzer=newNGram

分类：编程语言时间：2020-12-04 11:10:55 阅读次数：5

图解Spark系列：RDD的创建与执行

设计Spark程式过程中最初始的是创建RDD数据集，该数据集来自定义的源数据，当RDD数据集初始后，再通过算子对RDD数据集作转换生成后续的数据集。Spark中提供了多种创建RDD数据集的方法，比如：通过内存集合创建、或使用本地文件创建以及HDFS文件创建RDD数据集。最常见的是第三种方式，生产环境下通常会读取并基于HDFS上存储的数据来创建并进行离线批处理。典型的RDD创建流程为，通过输入算子（

分类：其他好文时间：2020-12-04 10:59:58 阅读次数：4

共26003条上一页 1 ... 34 35 36 37 38 ... 2601 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)