图形数据库也称为图形数据库管理系统或GDBMS。 Neo4j的官方网站:http://www.neo4j.org Neo4j的优点 它很容易表示连接的数据 检索/遍历/导航更多的连接数据是非常容易和快速的 它非常容易地表示半结构化数据 Neo4j CQL查询语言命令是人性化的可读格式,非常容易学习 ...
分类:
其他好文 时间:
2018-08-04 18:45:34
阅读次数:
132
数据提取的概念和数据的分类 1. 什么是数据提取 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 2. 爬虫中数据的分类 结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath 数据提取之json 1.为什么要复习js ...
分类:
其他好文 时间:
2018-08-01 22:14:07
阅读次数:
192
RDBMS vs NoSQL RDBMS - 高度组织化结构化数据 - 结构化查询语言(SQL) (SQL) - 数据和关系都存储在单独的表中。 - 数据操纵语言,数据定义语言 - 严格的一致性- 基础事务 NoSQL - 代表着不仅仅是SQL- 没有声明性查询语言- 没有预定义的模式-键 - 值对 ...
分类:
数据库 时间:
2018-08-01 14:10:28
阅读次数:
225
什么是Protocol Buffers? 官方翻译:协议缓冲区是Google的语言中立,平台中立,可扩展的机制,用于序列化结构化数据 - 像XML,但更小,更快,更简单。 您可以定义数据的结构化时间,然后可以使用特殊生成的源代码轻松地在各种数据流中使用各种语言编写和读取结构化数据。(类似xml,js ...
分类:
其他好文 时间:
2018-07-31 19:25:24
阅读次数:
118
sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 ...
分类:
数据库 时间:
2018-07-26 15:12:40
阅读次数:
216
什么是大数据 所谓大数据,是指数据量庞大、产生数度快、结构多样的价值密度低的数据。其中,数据量庞大是指数据规模超出1、2台高性能主机所能处理范围;结构多样性是指除了关系型数据库能够处理的结构化数据还包含半结构化数据(如各类传感设备必如地镑、卫星、GPS设备等产生的纯文本格式的数据,还有良心网站NAS ...
分类:
其他好文 时间:
2018-07-25 20:44:02
阅读次数:
224
大纲 1.知识抽取任务定义和相关比赛 2.面向结构化数据的知识抽取 3.面向半结构化数据的知识抽取 4.实践展示:基于百科数据的知识抽取 竞赛:MUC ACE KBP SemEval 实体识别与链接 关系抽取:从文本中抽取两个或两个以上实体的语义关系 监督学习——深度学习方法 Pipeline Jo ...
分类:
其他好文 时间:
2018-07-25 01:12:15
阅读次数:
376
第一:hbase介绍 hbase是一个构建在hdfs上的分布式列存储系统; hbase是apache hadoop生态系统中的重要一员,主要用于海量结构化数据存储 从逻辑上讲,hbase将数据按照表、行和列进行存储 1.大:一个表可以有数十亿行,上百万列; 2.无模式:每行都有一个可排序的主键和任意 ...
分类:
其他好文 时间:
2018-07-18 17:14:17
阅读次数:
197
看到 一篇文档, 讲 对象存储, 好奇,搜索文章,摘抄,学习记录 ! 背景: 传统存储在面对海量非结构化数据时,在存储、分享与容灾上面临很大的挑战,主要表现在以下几个方面:传统存储并非为非结构化内容设计或优化、成本过高、并非PB级的扩展、不支持永远在线、专有的一体机设备等等,非结构化数据以每年60% ...
分类:
其他好文 时间:
2018-07-12 16:33:11
阅读次数:
5696
7. 数据源 Spark-SQL 支持通过Dataframe接口对各种数据源进行操作 各种数据源的加载&保存 数据转换(relational transformations) 注册临时视图(temporary view),来允许SQL的形式直接对临时视图进行操作 7.1 数据源加载 Spark-SQ ...
分类:
其他好文 时间:
2018-07-05 01:24:13
阅读次数:
495