HBase HBas是Hadoop数据库,是一个分布式,可扩展的大数据存储。 当您需要对大数据进行随机,实时读/写访问时,请使用HBase。该项目的目标是托管非常大的表 - 数十亿行X百万列 - 在商品硬件集群上。HBase是一个开源的,分布式的,版本化的非关系数据库,结构化数据分布式存储系统。正如 ...
分类:
其他好文 时间:
2019-09-13 15:26:51
阅读次数:
91
数据 整理分析(算法 + 数据结构) 信息 1. 基本数据类型(Primitive Data Type) 标量数据类型(Scalar Data Type) 整数、浮点数、布尔、字符 2. 结构化数据类型(Structured Data Type) 虚拟数据类型(Virtual Data Type) ...
分类:
其他好文 时间:
2019-09-11 15:43:48
阅读次数:
121
知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库里。而自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的信息,加入到知识库中。 在本文中,笔者主要想分享一下自底向 ...
分类:
其他好文 时间:
2019-09-05 21:46:21
阅读次数:
134
一、Lucene相关基础概念 定义:一个简易的工具包,实现文件搜索的功能,支持中文,关键字,多条件查询,凡是文件名或文件内容包含的都查出来。 数据分类:结构化数据(固定格式或有限长度的数据)和非结构化数据(不定长或无固定格式的数据) PS:lucene是搜索引擎的底层实现,solr实际上是对luce ...
分类:
Web程序 时间:
2019-09-01 01:42:57
阅读次数:
158
前言 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类 ...
分类:
其他好文 时间:
2019-08-28 17:15:47
阅读次数:
98
一、NoSQL简介1、NoSQL概念NoSQL(NotOnlySQL),意即"不仅仅是SQL"。对不同于传统的关系型数据库的数据库管理系统的统称。NoSQL用于超大规模数据的存储。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。2、NoSQL的优点/缺点--优点:高可扩展性分布式计算低成本架构的灵活性,半结构化数据没有复杂的关系--缺点:没有标准化有限的查询功能
分类:
数据库 时间:
2019-08-22 23:56:02
阅读次数:
209
<! flowchart 箭头图标 勿删 背景 最近我在尝试存储知识图谱的过程中,接触到了Neo4j图数据库,这里我摘取了一段Neo4j的简介: Neo4j是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎 ...
分类:
数据库 时间:
2019-08-22 19:17:52
阅读次数:
124
KGB知识图谱引擎(Knowledge Graph Builder)是基于自然语言理解、汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时高效构建知识图谱。 ...
分类:
其他好文 时间:
2019-08-22 13:01:21
阅读次数:
67
Items 主要目标是从非结构化来源(通常是网页)提取结构化数据。Scrapy爬虫可以将提取的数据作为Python语句返回。虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,特别是在与许多爬虫的大项目。 要定义公共输出数据格式,Scrapy提供Item类 ...
分类:
其他好文 时间:
2019-08-21 09:56:23
阅读次数:
112
背景 相较传统的重量级OLAP数据仓库,“数据湖”以其数据体量大、综合成本低、支持非结构化数据、查询灵活多变等特点,受到越来越多企业的青睐,逐渐成为了现代数据平台的核心和架构范式。 数据湖的核心功能,简单地可以分为数据存储与数据查询计算两个部分,在云端可以有多种的实现选择。在之前的文章中,我们曾介绍 ...
分类:
其他好文 时间:
2019-08-18 11:24:20
阅读次数:
105