ceph 官方网站:http://docs.ceph.org.cn/ 简单介绍: Ceph是一个开源的分布存储系统,同时提供对象存储、块存储和文件存储。linux内核2.6.34将ceph加入到内核中,红帽基于ceph出了redhat ceph storage. 支持TB级存储 支持高可用、容灾备份 ...
分类:
其他好文 时间:
2018-08-17 19:10:10
阅读次数:
181
1、思维模式转变的催化剂是大量新技术的诞生,它们能够处理大数据分析所带来的3个V的挑战。扎根于开源社区,Hadoop已经是目前大数据平台中应用率最高的技术,特别是针对诸如文本、社交媒体订阅以及视频等非结构化数据。 2、除分布式文件系统之外,伴随Hadoop一同出现的还有进行大数据集处理MapRedu ...
分类:
其他好文 时间:
2018-08-12 14:16:13
阅读次数:
126
一、简介:Elasticsearch是一个基于ApacheLucene的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它:·分布式的实时文件存储,每个字段都被索引并可被搜索·分布式的实时分析搜索引擎·可以扩展到上百台服务器,处理PB级结构化或非结构化数据二、
分类:
其他好文 时间:
2018-08-11 10:14:38
阅读次数:
205
数据提取的概念和数据的分类 1. 什么是数据提取 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 2. 爬虫中数据的分类 结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath 数据提取之json 1.为什么要复习js ...
分类:
其他好文 时间:
2018-08-01 22:14:07
阅读次数:
192
看到 一篇文档, 讲 对象存储, 好奇,搜索文章,摘抄,学习记录 ! 背景: 传统存储在面对海量非结构化数据时,在存储、分享与容灾上面临很大的挑战,主要表现在以下几个方面:传统存储并非为非结构化内容设计或优化、成本过高、并非PB级的扩展、不支持永远在线、专有的一体机设备等等,非结构化数据以每年60% ...
分类:
其他好文 时间:
2018-07-12 16:33:11
阅读次数:
5696
3.爬取优质的资源:图片、文本、视频 爬取知乎钓鱼贴\图片网站,获得福利图片。 爬取微信公众号文章,分析新媒体内容运营策略。 1.了解爬虫的基本原理及过程 2.Requests+Xpath 实现通用爬虫套路 3.了解非结构化数据的存储 4.学习scrapy,搭建工程化爬虫 5.学习数据库知识,应对大 ...
分类:
其他好文 时间:
2018-06-23 21:02:34
阅读次数:
155
概述 传统的关系型数据库以及数据仓库在面对大数据的处理时显得越来越力不从心。因为关系数据库管理系统 (RDBMS)的设计从未考虑过能够处理日益增长且格式多变的数据,以及访问数据并进行分析的用户需求呈爆炸式增长的势头。它们一般都是固定的schema,缺乏对非结构化数据的支持,同时对数据分片存储、系统扩 ...
分类:
数据库 时间:
2018-06-19 00:48:19
阅读次数:
198
1. HBase框架简单介绍 HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键 ...
分类:
其他好文 时间:
2018-06-09 19:43:22
阅读次数:
209
页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 正则表达式 ...
分类:
其他好文 时间:
2018-06-05 23:26:57
阅读次数:
298
前言:Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。在学习Hive之前我们先了解下结构化数据,半结构化数据以及非结构化数据的区别。1.结构化数据结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。举一个例子:idnameagegender1lyh12male2liangy
分类:
其他好文 时间:
2018-06-01 17:36:44
阅读次数:
169