1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive,它是将Hive ...
分类:
数据库 时间:
2017-08-25 13:49:10
阅读次数:
249
Lucene是一个基于Java的高效的全文检索库。那么什么是全文检索,为什么需要全文检索?目前人们生活中出现的数据总的来说分为两类:结构化数据和非结构化数据。很容易理解,结构化数据是有固定格式和结构的或者有限长度的数据,比如数据库,元数据等。非结构化数据则是不定长或者没有固定格式的数据,如图片,邮件 ...
分类:
Web程序 时间:
2017-08-23 18:20:07
阅读次数:
168
Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv ...
分类:
其他好文 时间:
2017-08-20 00:47:57
阅读次数:
215
前言:一些逻辑用spark core 来写,会比较麻烦,如果用sql 来表达,那简直太方便了 一、Spark SQL 是什么 是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法: sql 查询 DataFrames/Datasets API Spark SQL = ...
分类:
数据库 时间:
2017-08-16 17:16:47
阅读次数:
237
作者介绍:吴双桥 腾讯云project师 阅读原文。很多其它技术干货。请訪问腾云阁。 本文主要介绍在MySQL 5.7.7開始引入的非结构化数据类型JSON的特性以及详细的实现方式(包含存储方式)。首先介绍为什么要引入JSON的原生数据类型的支持;接着介绍MySQL给用户提供的JSON操作函数,以及 ...
分类:
数据库 时间:
2017-08-13 19:24:25
阅读次数:
263
接着前面的Zookeeper部署之后,现在可以学习HBase了。 HBase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,它是基于列而不是基于行的模式,适合存储非结构化数据。 体系结构:H ...
分类:
其他好文 时间:
2017-08-06 15:09:07
阅读次数:
272
Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这样的编程抽象。同一时候也能够作为分布式SQL查询引擎使用。 DataFrames DataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame,只是在底层做 ...
分类:
数据库 时间:
2017-08-05 15:41:35
阅读次数:
268
Protobuf使用手册 第1章 定义.proto 文件 首先我们需要编写一个 proto 文件,定义我们程序中需要处理的结构化数据,在 protobuf 的术语中,结构化数据被称为 Message。proto 文件非常类似 java 或者 C 语言的数据定义,可以使用C或C++风格的注释。下面是一 ...
分类:
其他好文 时间:
2017-08-04 11:02:03
阅读次数:
343
前言 习惯用 Json、XML 数据存储格式的你们,相信大多都没听过Protocol Buffer Protocol Buffer 事实上 是 Google出品的一种轻量 & 高效的结构化数据存储格式,性能比 Json、XML 真的强!太!多! 由于 Google出品,我相信Protocol Buf ...
分类:
Web程序 时间:
2017-08-01 12:52:58
阅读次数:
230
Logistic回归一般过程: 1)收集数据 2)准备数据:数据类型为数值型(需要进行距离计算),最好为结构化数据格式 3)分析数据 4)训练算法:目的是为了找出最佳的分类回归系数 5)测试算法:训练结束后,分类将会很快。 6)使用算法:首先,将输入的数据转换成对应的结构化数据;然后,基于训练好的回 ...
分类:
其他好文 时间:
2017-07-29 23:12:32
阅读次数:
156