码迷,mamicode.com
首页 >  
搜索关键字:大数据开发 Hadoop Spark    ( 19831个结果
hadoop单机测试环境安装(简)
1.下载hadoop官网就可以下载。可以直接搜hadoop , 其实可以直接查看官网的版主文档搭建https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 2.解压包到/usr ...
分类:其他好文   时间:2020-03-16 14:54:04    阅读次数:71
storm热力图项目(后台)
1.安装启动zookeeper /home/hadoop/app/zookeeper-3.4.5-cdh5.7.0/conf/zoo.cfg bin/zkServer start 2.安装启动logstash /home/hadoop/app/logstash-2.4.1/project.conf ...
分类:其他好文   时间:2020-03-16 14:49:22    阅读次数:91
DataFrame简介(一)
1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF ...
分类:其他好文   时间:2020-03-16 12:56:06    阅读次数:95
Linux-Bigdata
总结一下大数据开发基本常识: JDK(做java开发必备的开发工具包) Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs Sqoop(数据迁移,清洗) Kettle(数据清洗,格式转换) Hive(基于Hadoop的数据仓库,并不是数据库,需要安 ...
分类:系统相关   时间:2020-03-15 22:17:01    阅读次数:90
centos7无cm安装hadoop+spark
配置内核参数后重启生效# echo 'vm.swappiness=10'>> /etc/sysctl.conf 安装JDK8# rpm -ivh jdk-8u211-linux-x64.rpm # vi /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_ ...
分类:其他好文   时间:2020-03-15 22:11:33    阅读次数:76
Elasticsearch构建全文搜索系统
[toc] 前言 Elasticsearch 是一个分布式、可扩展、实时的搜索与数据分析引擎,通过它我们可以构建出一个强大的全文搜索系统,解决诸如文章检索慢,商品检索慢、MySQL的like查询慢这样的问题。 Elasticsearch是基于hadoop创始人道哥的另一杰作Lucene实现的,速度非 ...
分类:其他好文   时间:2020-03-15 13:32:18    阅读次数:84
Spark 累加器使用
1.使用foreach碰到了问题 没看过累加器的时候,写了这么个代码,发现map里头foreach完了还是0啊?咋回事啊? 1 def calNrOfEachDataMap(data:RDD[String],neededDataMap:Set[Map[Int,String]]): Map[Map[I ...
分类:其他好文   时间:2020-03-15 10:10:54    阅读次数:163
Spark- How to concatenate DataFrame columns
[toc] 使用 或`concat_ws() `SQL函数,可以将一个或多个列连接到Spark DataFrame上的单个列中。在文本中,将学习如何使用这些函数,还可以使用原始SQL通过Scala示例来连接列。 Preparing Data & DataFrame 注意,我们需要导入spark对象上 ...
分类:其他好文   时间:2020-03-14 23:54:22    阅读次数:61
HDFS基础操作指令
一.文件操作 文件操作 类似于正常的linux操作前面加上“hdfs dfs -” 前缀也可以写成hadoop而不用hdfs,但终端中显示 Use of this script to execute hdfs command is deprecated. Instead use the hdfs c ...
分类:其他好文   时间:2020-03-14 21:57:13    阅读次数:58
pyspark读取textfile形成DataFrame以及查询表的属性信息
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input ...
分类:其他好文   时间:2020-03-14 20:06:06    阅读次数:166
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!