搜索关键字：结构化数据，搜索到770个结果！码迷,mamicode.com！

Spark SQL

1.1. Spark SQL概述 1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 1.1.2. 为什么要学习Spark SQL 我们已经学习了Hive，它是将Hive ...

分类：数据库时间：2017-08-25 13:49:10 阅读次数：249

免费的Lucene 原理与代码分析完整版下载

Lucene是一个基于Java的高效的全文检索库。那么什么是全文检索，为什么需要全文检索？目前人们生活中出现的数据总的来说分为两类：结构化数据和非结构化数据。很容易理解，结构化数据是有固定格式和结构的或者有限长度的数据，比如数据库，元数据等。非结构化数据则是不定长或者没有固定格式的数据，如图片，邮件 ...

分类：Web程序时间：2017-08-23 18:20:07 阅读次数：168

Pig和Hive的对比

Pig Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv ...

分类：其他好文时间：2017-08-20 00:47:57 阅读次数：215

Spark SQL概述

前言：一些逻辑用spark core 来写，会比较麻烦，如果用sql 来表达，那简直太方便了一、Spark SQL 是什么是专门处理结构化数据的 Spark 组件 Spark SQL 提供了两种操作数据的方法： sql 查询 DataFrames/Datasets API Spark SQL = ...

分类：数据库时间：2017-08-16 17:16:47 阅读次数：237

腾讯云数据库团队：MySQL5.7 JSON实现简单介绍

作者介绍：吴双桥腾讯云project师阅读原文。很多其它技术干货。请訪问腾云阁。本文主要介绍在MySQL 5.7.7開始引入的非结构化数据类型JSON的特性以及详细的实现方式(包含存储方式)。首先介绍为什么要引入JSON的原生数据类型的支持；接着介绍MySQL给用户提供的JSON操作函数，以及 ...

分类：数据库时间：2017-08-13 19:24:25 阅读次数：263

大数据【七】HBase部署

接着前面的Zookeeper部署之后，现在可以学习HBase了。 HBase是基于Hadoop的开源分布式数据库，它以Google的BigTable为原型，设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统，它是基于列而不是基于行的模式，适合存储非结构化数据。体系结构：H ...

分类：其他好文时间：2017-08-06 15:09:07 阅读次数：272

Spark SQL and DataFrame Guide(1.4.1)——之DataFrames

Spark SQL是处理结构化数据的Spark模块。它提供了DataFrames这样的编程抽象。同一时候也能够作为分布式SQL查询引擎使用。 DataFrames DataFrame是一个带有列名的分布式数据集合。等同于一张关系型数据库中的表或者R/Python中的data frame，只是在底层做 ...

分类：数据库时间：2017-08-05 15:41:35 阅读次数：268

Protobuf使用手册

Protobuf使用手册第1章定义.proto 文件首先我们需要编写一个 proto 文件，定义我们程序中需要处理的结构化数据，在 protobuf 的术语中，结构化数据被称为 Message。proto 文件非常类似 java 或者 C 语言的数据定义，可以使用C或C++风格的注释。下面是一 ...

分类：其他好文时间：2017-08-04 11:02:03 阅读次数：343

快来看看Google出品的Protocol Buffer，别仅仅会用Json和XML了

前言习惯用 Json、XML 数据存储格式的你们，相信大多都没听过Protocol Buffer Protocol Buffer 事实上是 Google出品的一种轻量 & 高效的结构化数据存储格式，性能比 Json、XML 真的强！太！多！由于 Google出品，我相信Protocol Buf ...

分类：Web程序时间：2017-08-01 12:52:58 阅读次数：230

Logistic回归

Logistic回归一般过程： 1）收集数据 2）准备数据：数据类型为数值型（需要进行距离计算），最好为结构化数据格式 3）分析数据 4）训练算法：目的是为了找出最佳的分类回归系数 5）测试算法：训练结束后，分类将会很快。 6）使用算法：首先，将输入的数据转换成对应的结构化数据；然后，基于训练好的回 ...

分类：其他好文时间：2017-07-29 23:12:32 阅读次数：156

共770条上一页 1 ... 36 37 38 39 40 ... 77 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)