==>什么是SparkSQL?--->SparkSQL是Spark用来处理结构化数据的一个模块--->作用:提供一个编程抽象(DataFrame)并且作为分布式SQL查询引擎--->运行原理:将SparkSQL转化为RDD,然后提交到集群执行--->特点:----容易整合----统一的数据访问方式----兼容Hive----标准的数据连接----==>DataFrames组织成命名列的数据集,等同
分类:
数据库 时间:
2018-03-07 13:26:08
阅读次数:
1623
欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! 一、spark SQL:类似于Hive,是一种数据分析引擎 什么是spark SQL? spark SQL只能处理结构化数据 底层依赖RDD,把sq ...
分类:
数据库 时间:
2018-03-04 19:01:51
阅读次数:
231
理解lxml以及xpath 理解lxml以及xpath 什么是lxml? python中用来处理XML和HTML的library。与其他相比,它能提供很好的性能, 并且它支持XPath。 具体可以查看官方文档->http://lxml.de/index.html 结构化数据: XML, JSON 非 ...
分类:
微信 时间:
2018-02-28 10:36:17
阅读次数:
248
听说最近冒出的大批呱儿子个个都是撑着眼皮也要看书的无眠小青蛙。我们学习Machine Learning的脚步又怎能停下来?动动手指,上滑开始~ 今天的内容是 【特征工程—结构化数据】 场景描述 特征工程是指结合问题寻找有效的特征并进行处理成适合模型的输入形式。机器学习中有句经典的话叫做“Garbag ...
分类:
其他好文 时间:
2018-02-27 23:40:19
阅读次数:
436
老朋友了,还用多说什么吗?点击下面的链接复习咯: 17. 随机梯度下降算法之经典变种 18. SVM—核函数与松弛变量 19. 主题模型 20. PCA最小平方误差理论 21. 分类、排序、回归模型的评估 22. 特征工程—结构化数据 23. 神经网络训练中的批量归一化 24. 随机梯度下降法 你可 ...
分类:
其他好文 时间:
2018-02-27 21:32:28
阅读次数:
212
在过去的几年中,结构化日志已经大受欢迎。而Serilog是 .NET 中最著名的结构化日志类库 ,我们提供了这份的精简指南来帮助你快速了解并运用它。 0. 内容 1. 设定目标 2. 认识Serilog 3. 事件和级别 4. 触发和收集结构化数据 5. 为过滤和关联添加事件标记 6. 大海捞针 [ ...
分类:
其他好文 时间:
2018-02-26 18:19:07
阅读次数:
210
不多说,直接上干货! 推荐博客 SPSS学习系列之SPSS Statistics(简称SPSS)是什么? 官方简介: SPSS Modeler 是全球领先的数据挖掘、预测分析平台软件,拥有简单的图形界面和高级分析能力,发现结构化和非结构化数据中的趋势,使得企业和分析师增加生产力,获得前所未有的深入了 ...
分类:
其他好文 时间:
2018-02-26 15:06:48
阅读次数:
274
什么是ES? 1基于Apache Lucene构建的开源搜索引擎 2采用java编写,提供简单易用的RESTFul API 3轻松的横向扩展,可支持PB级的结构化或非结构化数据处理 ES的应用场景? 1海量数据分析引擎 2站内搜索引擎 3作为数据仓库使用 ES的安装 1.单机方式 1)从官网http ...
分类:
其他好文 时间:
2018-02-25 19:26:12
阅读次数:
197
一、简介 这里简单介绍一下各个工具的使用场景,一般用mysql,redis,mongodb做存储层,hadoop,spark做大数据分析。 mysql适合结构化数据,类似excel表格一样定义严格的数据,用于数据量中,速度一般支持事务处理场合 redis适合缓存内存对象,如缓存队列,用于数据量小,速 ...
分类:
数据库 时间:
2018-02-23 00:22:02
阅读次数:
200
Spark SQL是Apache Spark最广泛使用的一个组件,它提供了非常友好的接口来分布式处理结构化数据,在很多应用领域都有成功的生产实践,但是在超大规模集群和数据集上,Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战,英特尔大数据技术团队和百度大数据基础架构部工程师在S ...
分类:
数据库 时间:
2018-02-20 11:49:00
阅读次数:
201