搜索关键字：结构化数据，搜索到770个结果！码迷,mamicode.com！

Hadoop01

Bigdata：结构化数据：有严格约束半结构化数据：非结构化数据：没有元数据搜索引擎：搜索组件+索引组件（存放数据由蜘蛛程序爬取而来） 2003年 Google发表第一篇论文 The Google File System 解决大量数据存储 GFS文件系统系统阐述了采取商业计算机集群就是普 ...

分类：其他好文时间：2019-08-17 19:49:38 阅读次数：99

Lucene01

数据分类结构化数据和非结构化数据结构化数据搜索 sql 非结构化数据查询方法顺序扫描法全文检索 lucene实现全文检索的流程创建索引对文档索引的过程，将用户要搜索的文档内容进行索引，索引存在索引库中，获取原始文档创建文档对象，文档中包括一个一个的域（Field），域中存储内容，可以 ...

分类：Web程序时间：2019-08-07 13:24:33 阅读次数：102

HBase

大数据技术之HBase 一、HBaes介绍 1.1、HBase简介 HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列（族）的存储和权限控制，列（簇）独立检索稀疏：对于为空( ...

分类：其他好文时间：2019-07-26 09:25:36 阅读次数：95

dplyr

dplyr包可用于处理 R 内部或者外部的结构化数据，相较于plyr包，dplyr包专注接受 data.frame 对象，大幅提高了速度，并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。安装dplyr包 install.packages("dplyr") ...

分类：其他好文时间：2019-07-15 14:50:14 阅读次数：94

Scrapy项目实战

Date: 2019 07 15 Author: Sun Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作，用户不需要明白Scrapy内部具体的爬取策略，只需要根据自己的需要，编写小部分的代码，就能抓取到所需 ...

分类：其他好文时间：2019-07-15 01:16:09 阅读次数：100

关系型数据库之MYSQL（详细）

MYSQL：目录SQL语句事务，隔离，并发控制，锁用户和权限监控STATUS索引类型：查询VARIABLES备份和恢复复制功能集群60-70年代，数据使用文件存放数据冗余和不一致性数据访问困难数据孤立完整性问题原子性问题并发访问异常安全性问题DBMS层次模型网状模型关系模型RDBMS关系模型：（结构化数据模型）关系模型E-R：实体-关系模型对象关系模型：基于对象的数据模型半结构化数据模型XML（扩

分类：数据库时间：2019-07-11 09:52:15 阅读次数：142

Cassandra 集群核心配置和概梳理

Cassandra是一款分布式的结构化数据存储方案(NoSql数据库)，存储结构比Key-Value数据库（像Redis）更丰富，但是比Document数据库（如Mongodb）支持度有限；适合做数据分析或数据仓库这类需要迅速查找且数据量大的应用.Cassandra集群特性比较丰富，考虑场景也比较多，如果想用好集群，集群本很多概念都要能够了解，下面对相关概念进行简介；与关系数据库相关概念：keys

分类：其他好文时间：2019-07-10 21:34:54 阅读次数：213

大数据的介绍

第一节：数据一、概念数据就是数值，也就是我们通过观察、实验或计算得出的结果。数字、图片、视频……. 二、分类 1、按照结构分结构化数据：mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列，每一行对应的列的类型一致的。非结构化数据：没有任何结构的数据，视频、图片、音频 ...

分类：其他好文时间：2019-06-30 20:35:37 阅读次数：147

sparkSQL

1.spark SQL简介官网：http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程对象，叫DataFrame，并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive，它是将H ...

分类：数据库时间：2019-06-26 13:21:25 阅读次数：133

Spark SQL应用解析

一 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRe ...

分类：数据库时间：2019-06-22 19:45:45 阅读次数：144

共770条上一页 1 ... 13 14 15 16 17 ... 77 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)