大数据:海量数据结构化数据:即行数据,能够存储在二维表中的数据非结构化数据:无法使用数据的二维逻辑表示数据。如word,ppt,图片半结构化数据:在结构化与非结构化之间,自我描述,将结构与数据本身存储在一起的数据:xml、json、htmlgoole的论文:MapReduce:SimplifiedD..
分类:
其他好文 时间:
2015-08-27 19:20:59
阅读次数:
282
Google Protocol Buffer 的使用和原理 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,很适合做数据存储或 RPC 数据交换格式。它可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。目前提供了 C++、...
分类:
其他好文 时间:
2015-08-27 18:25:34
阅读次数:
213
hbase基本概念和hbase shell常用命令用法1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Ha...
分类:
系统相关 时间:
2015-08-26 19:18:41
阅读次数:
189
什么是数据库什么是数据库?有些学习Java和PHP的童鞋应该对数据库有一定的概念。那么零基础的人应该如何理解数据库呢?本文就主要向零基础的童鞋们讲讲数据库的一些基本概念。数据库也分类型关系型数据库非关系型数据库面向对象型数据库半结构化数据库其中比较主流的就是关系型数据库,关系型数据库的代表就是MyS...
分类:
数据库 时间:
2015-08-25 13:23:11
阅读次数:
143
最近遐想,数据存储的非格式化趋势。格式化表格到自由的XML存储 数年以前,多家数据库厂商开始XML数据库存储。XML数据作为一种自描述的半结构化数据为Web的数据管理提供了新的数据模型,如果将XML标记数据放 入一定的结构中,对数据的检索、分析、更新和输出就能够在更加容易管理的、系统的和较为熟悉的环...
分类:
其他好文 时间:
2015-08-20 18:13:40
阅读次数:
119
HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于B...
分类:
其他好文 时间:
2015-08-20 15:07:45
阅读次数:
190
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口。...
分类:
其他好文 时间:
2015-08-20 10:41:59
阅读次数:
154
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Hive介绍1.1Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语...
分类:
其他好文 时间:
2015-08-20 09:10:11
阅读次数:
134
本系列开始学习Lucene。 在我们处理的数据当中,分为三类数据: 结构化数据:具有固定格式或限定长度的数据,如我们的数据库中的数据 非结构化数据:无固定格式、无固定长度的数据,如我们web上的文本内容等 半结...
分类:
Web程序 时间:
2015-08-18 19:50:42
阅读次数:
157
HBase是一个分布式,面向对象的开源数据库,该技术来源于Google论文“Bigtable:一个结构化数据的分布式存储系统”。
就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在hadoop之上提供了类似于Bigtable的能力。
HBase是apache的Hadoop项目的子项目。
HBase不同于一般的关系型数据库,它是一个...
分类:
其他好文 时间:
2015-08-16 23:07:11
阅读次数:
295