搜索关键字：spark 1.0.0，搜索到7001个结果！码迷,mamicode.com！

pyspark读取textfile形成DataFrame以及查询表的属性信息

pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息： show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如，Input ...

分类：其他好文时间：2020-03-14 20:06:06 阅读次数：166

Spark编程--Kafka安装与配置 (Kafka版本 kafka_2.11_2.2.1)

1.安装scala 2.11.8 2.解压下载包 cd ~/下载 sudo tar -zxf kafka_2.11-0.10.1.0.tgz -C ~/app cd ~/app sudo mv kafka_2.11-0.10.1.0/ ./kafka sudo chown -R hadoop ./k ...

分类：其他好文时间：2020-03-14 19:56:39 阅读次数：121

Spark编程--Spark SQL DataFrame

DataFrame与RDD的区别 ...

分类：数据库时间：2020-03-14 11:06:09 阅读次数：69

sparksql 概述

什么是Spark SQL？ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRe ...

分类：数据库时间：2020-03-11 10:46:14 阅读次数：68

Spark编程--文件数据读写

把RDD写入到文本文件中分布式文件系统HDFS的数据读写 JSON文件数据读写（注scala 2.11.8运行不了） ...

分类：其他好文时间：2020-03-10 21:53:58 阅读次数：76

spark Accumulator累加器使用示例

官网 http://spark.apache.org/docs/2.3.1/rdd-programming-guide.html#accumulators http://spark.apache.org/docs/2.3.1/api/scala/index.html#org.apache.spark ...

分类：其他好文时间：2020-03-08 17:55:40 阅读次数：96

spark sql架构和原理——和Hive类似 dataframe无非是内存中的table而已底层原始数据存储可以是parquet hive json avro等

from：https://blog.csdn.net/zhanglh046/article/details/78505038 一 Spark SQL运行架构Spark SQL对SQL语句的处理和关系型数据库类似，即词法/语法解析、绑定、优化、执行。Spark SQL会先将SQL语句解析成一棵树，然后 ...

分类：数据库时间：2020-03-08 16:00:50 阅读次数：107

Spark完成wordCount

Spark官方自带了WordCount的样例，我们也可以自己实现，加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit ...

分类：其他好文时间：2020-03-08 13:44:44 阅读次数：65

Delta Lake 学习

https://docs.delta.io/latest/quick-start.html Boston Spark Meetup @ Wayfair / Delta Lake: Open Source Reliability and Quality for Data Lakes ...

分类：其他好文时间：2020-03-06 10:52:06 阅读次数：57

Spark Random Forest classifier 随机森林分类

1、概述随机森林是决策树的集合。随机森林是用于分类和回归的最成功的机器学习模型之一。他们结合了许多决策树，以减少过度拟合的风险。像决策树一样，随机森林处理分类特征，扩展到多类分类设置，不需要特征缩放，并且能够捕获非线性和特征交互。 spark.mllib支持使用连续和分类功能对二元和多类分类以及进 ...

分类：其他好文时间：2020-03-04 12:28:12 阅读次数：105

共7001条上一页 1 ... 46 47 48 49 50 ... 701 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)