原:http://blog.csdn.net/liangyihuai/article/details/54864952 结构化数据、半结构化数据和非结构化数据 结构化数据 结构化的数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。一般特点是:数据以行为单位,一行数据表示一个实体的信息,每 ...
分类:
其他好文 时间:
2017-11-23 10:52:59
阅读次数:
121
参考学习资料:http://pandas.pydata.org 1.什么是Pandas? Pandas的名称来自于面板数据(panel data)和Python数据分析(data analysis)。 Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了 高级数据结构 和 数据 ...
分类:
其他好文 时间:
2017-11-19 19:39:33
阅读次数:
287
scrapy由下面几个部分组成spiders:爬虫模块,负责配置需要爬取的数据和爬取规则,以及解析结构化数据items:定义我们需要的结构化数据,使用相当于dictpipelines:管道模块,处理spider模块分析好的结构化数据,如保存入库等middlewares:中间件,相当于钩子,可以对爬取前后..
分类:
其他好文 时间:
2017-11-15 23:39:01
阅读次数:
233
1、前言 term级别查询将按照存储在倒排索引中的确切字词进行操作,这些查询通常用于数字,日期和枚举等结构化数据,而不是全文本字段。 或者,它们允许您制作低级查询,并在分析过程之前进行。 term级别的查询包括以下几种查询方式: 1.1、term query term级别查询将按照存储在倒排索引中的 ...
分类:
其他好文 时间:
2017-11-10 12:53:58
阅读次数:
169
1.mongoDB简介 1.1 NoSQL数据库 数据库:进行高效的、有规则的进行数据持久化存储的软件 NoSQL数据库:Not only sql,指代非关系型数据库 优点:高可扩展性、分布式计算、低成本、灵活架构、半结构化数据、简化关联关系 缺点:没有标准化、有限查询、不直观 常见NoSQL数据库 ...
分类:
数据库 时间:
2017-11-07 22:59:57
阅读次数:
332
1. 连接mysql 首先需要把mysql-connector-java-5.1.39.jar 拷贝到 spark 的jars目录里面; scala> import org.apache.spark.sql.SQLContextimport org.apache.spark.sql.SQLConte ...
分类:
数据库 时间:
2017-11-02 16:57:44
阅读次数:
201
1.简介 Hive是数据仓库平台,构建在Hadoop之上用来处理结构化数据。Hive是一个SQL解析引擎,能够将SQL语句转化成MapReduce作业并在Hadoop上执行,从而使得查询和分析更加方便。Hive是Facebook开发。2008年贡献给Apache,成为开源项目。 2.应用 由上图可见 ...
分类:
其他好文 时间:
2017-10-30 19:39:45
阅读次数:
212
xml.etree.ElementTree模块 Element类型是一种灵活的容器对象,用于在内存中存储结构化数据。 xml.etree.ElementTree模块在应对恶意结构数据时显得并不安全。 每个element对象都具有以下属性: 1. tag:string对象,表示数据代表的种类。 2. ...
分类:
编程语言 时间:
2017-10-30 14:29:55
阅读次数:
198
mongo简介 非结构化数据库,数据都是以Bson格式(json的二进制)存储的。 特点:不需要指定表结构,存在一张表里的数据其结构可以完全不同。内部执行引擎为JS解释器, 把文档存储成bson结构,在查询时,转换为JS对象,并可以通过熟悉的js语法来操作。 应用场景举例:类似网易云音乐一个音乐下有 ...
分类:
其他好文 时间:
2017-10-28 16:33:58
阅读次数:
133
ElasticSearch简介 什么是ElasticSearch 基于Apache Lucene构建的开源搜索引擎采用Java编写,提供简单易用的RESTFul API轻松的横向扩展,可支持PB级的结构化或非结构化数据处理 应用场景 可用应用场景 海量数据分析引擎站内搜索引擎数据仓库 一线公司实际应 ...
分类:
其他好文 时间:
2017-10-27 22:05:24
阅读次数:
180