Bigdata: 结构化数据:有严格约束 半结构化数据: 非结构化数据:没有元数据 搜索引擎:搜索组件+索引组件(存放数据 由蜘蛛程序爬取而来) 2003年 Google发表第一篇论文 The Google File System 解决大量数据存储 GFS文件系统 系统阐述了采取商业计算机集群就是普 ...
分类:
其他好文 时间:
2019-08-17 19:49:38
阅读次数:
99
数据分类 结构化数据和非结构化数据 结构化数据搜索 sql 非结构化数据查询方法 顺序扫描法 全文检索 lucene实现全文检索的流程 创建索引 对文档索引的过程,将用户要搜索的文档内容进行索引,索引存在索引库中, 获取原始文档 创建文档对象,文档中包括一个一个的域(Field),域中存储内容,可以 ...
分类:
Web程序 时间:
2019-08-07 13:24:33
阅读次数:
102
大数据技术之HBase 一、HBaes介绍 1.1、HBase简介 HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 大:上亿行、百万列 面向列:面向列(族)的存储和权限控制,列(簇)独立检索 稀疏:对于为空( ...
分类:
其他好文 时间:
2019-07-26 09:25:36
阅读次数:
95
dplyr包可用于处理 R 内部或者外部的结构化数据,相较于plyr包,dplyr包专注接受 data.frame 对象,大幅提高了速度,并且提供了更稳健的数据库接口。同时,dplyr包可用于操作Spark的dataframe。 安装dplyr包 install.packages("dplyr") ...
分类:
其他好文 时间:
2019-07-15 14:50:14
阅读次数:
94
Date: 2019 07 15 Author: Sun Scrapy是一个为了爬取网站数据、提取结构化数据而编写的爬虫应用框架。Scrapy内部实现了包括并发请求、免登录、URL去重等很多复杂操作,用户不需要明白Scrapy内部具体的爬取策略,只需要根据自己的需要,编写小部分的代码,就能抓取到所需 ...
分类:
其他好文 时间:
2019-07-15 01:16:09
阅读次数:
100
MYSQL:目录SQL语句事务,隔离,并发控制,锁用户和权限监控STATUS索引类型:查询VARIABLES备份和恢复复制功能集群60-70年代,数据使用文件存放数据冗余和不一致性数据访问困难数据孤立完整性问题原子性问题并发访问异常安全性问题DBMS层次模型网状模型关系模型RDBMS关系模型:(结构化数据模型)关系模型E-R:实体-关系模型对象关系模型:基于对象的数据模型半结构化数据模型XML(扩
分类:
数据库 时间:
2019-07-11 09:52:15
阅读次数:
142
Cassandra是一款分布式的结构化数据存储方案(NoSql数据库),存储结构比Key-Value数据库(像Redis)更丰富,但是比Document数据库(如Mongodb)支持度有限;适合做数据分析或数据仓库这类需要迅速查找且数据量大的应用.Cassandra集群特性比较丰富,考虑场景也比较多,如果想用好集群,集群本很多概念都要能够了解,下面对相关概念进行简介;与关系数据库相关概念:keys
分类:
其他好文 时间:
2019-07-10 21:34:54
阅读次数:
213
第一节:数据 一、概念 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数字、图片、 视频……. 二、分类 1、按照结构分 结构化数据:mysql表中的数据、excel 表、严格的二维表数据。每一行都有相同的列,每一行对应的列的类型一致的。 非结构化数据:没有任何结构的数据,视频、图片、音频 ...
分类:
其他好文 时间:
2019-06-30 20:35:37
阅读次数:
147
1.spark SQL简介 官网:http://spark.apache.org/ Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程对象,叫DataFrame,并且作为分布式SQL查询引擎的作用 2.为什么要学习spark SQL 2.1 我们已经学习了Hive,它是将H ...
分类:
数据库 时间:
2019-06-26 13:21:25
阅读次数:
133
一 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 Hive是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2019-06-22 19:45:45
阅读次数:
144