非结构化数据处理(文本)正则match 方法:从起始位置开始查找,一次匹配# match 方法用于查找字符串的头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。它的一般使用形式如下:# 其中,string 是待匹配的字符串,pos 和 endpos ...
分类:
其他好文 时间:
2019-11-22 12:05:45
阅读次数:
74
Sqoop简介 Sqoop是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具 原理: 将导入或导出命令翻译成Mapreduce程序来实现。 在翻译出的Mapreduce中主要是对InputFormat和OutputFormat进行定制 RDBMS到HD ...
分类:
Web程序 时间:
2019-11-21 21:27:34
阅读次数:
113
什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快 1)易整合 2)统一的数据访问方式 3)兼容Hive 4)标准 ...
分类:
数据库 时间:
2019-11-20 21:54:37
阅读次数:
91
BaikalDB是一个分布式可扩展的存储系统,支持PB级结构化数据的随机实时读写。 提供MySQL接口,支持常用的SELECT,UPDATE,INSERT,DELETE语法。提供各种WHERE过滤、GROUP BY聚合,HAVING过滤,ORDER BY排序等功能,用户可以组合实现各种在线OLAP需 ...
分类:
数据库 时间:
2019-11-19 01:24:34
阅读次数:
183
本篇内容来自《数据库系统概论(第五版)》(王珊 萨师煊),主要是整理数据库的基本概念,供自己复习查阅。 数据库常用逻辑数据模型 常用模型有: 网状模型 、 关系模型 、 面向对象数据模型 、 对象关系数据模型 、 半结构化数据模型 。其中,层次模型和网状模型又统称为 格式化模型 ,最重要的是 关系模 ...
分类:
数据库 时间:
2019-11-14 10:06:08
阅读次数:
114
大数据服务的数据源不但来自归属于不同行业的组织之中,而且其类型还具有多样性(Variety)特征。多样性指的是大数据服务不仅包括例如姓名、年龄这样的结构化数据,还包括歌曲、电影这样的非结构化数据,此外网页、邮件这样的数据介于结构化和非结构化之间,属于半结构化数据,也是大数据服务的重要数据源。结构化数据来源于业务需求,系统分析员将需求中静态的“名词”提取出来并进行抽象,作为数据库表结构设计的依据。比
分类:
其他好文 时间:
2019-11-09 00:39:55
阅读次数:
119
数据管理过程主要包括:数据转换、数据关联、数据丰富、数据操作以及数据保持。数据转换就是将数据从一种形式变换为另一种形式,通过形式的变化,使得数据更便于分析利用。比如在数据采集阶段导入的原始数据,需要将其从字符串类型转换为浮点型,这样便于对该数据项进行求和。另外,也可能因为数据格式问题进行数据转换,比如原始数据为网页这样的半结构化数据,为了能够搜索到网页中的数据,往往需要将网页中的关键数据提取出来并
分类:
其他好文 时间:
2019-11-09 00:11:35
阅读次数:
92
1.结构化,就是已经被分类,符合MECE原则的方法。可以先找模板。比如PEST模板 参考:http://www.sohu.com/a/259634585_411876 ...
分类:
其他好文 时间:
2019-11-08 21:05:44
阅读次数:
87
数据分类 非结构化数据:html等 处理方法:正则表达式,xpath 结构化数据:json,xml 处理方法:转化位python数据类型 JSONView的使用: 安装JSONView插件 下载插件,拖入chrome://extensions/这个网页里就可以用了 ...
分类:
其他好文 时间:
2019-10-23 11:29:39
阅读次数:
98
数据结构化: 数据库系统实现整体数据的结构化,是数据库的主要特征之一,也是数据库系统与文件系统的本质区别。 “整体”结构化是指在数据库中的数据不再仅仅针对某一应用,而是面向全组织,不仅数据内部结构化,而且整体结构化,数据之间是有联系的。 这就要求描述数据时不仅要描述数据本身,还要描述数据之间的联系。 ...
分类:
数据库 时间:
2019-10-23 11:15:32
阅读次数:
122