Hadoop:大数据集群,只能运行在Linux平台RDBMS:表字段、数据类型、约束结构化数据关系数据库在数据中占据重要的地位但不是所有的数据都可以结构化结构化数据:structureddata非结构化数据:unstructureddata半结构化数据:semi-structureddata通常保存为xml,jsonGoogle:pagerank页面算法
分类:
其他好文 时间:
2019-10-22 10:32:44
阅读次数:
108
概述: Spider定义如何爬取某个网站, 包括爬取的动作, 以及如何从网页的内容中提取结构化数据. # -*- coding: utf-8 -*- import scrapy from tutorial.items import QuoteItem class QuotesSpider(scrap ...
分类:
其他好文 时间:
2019-10-17 17:15:38
阅读次数:
82
Pandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。
分类:
其他好文 时间:
2019-10-16 23:14:31
阅读次数:
74
大数据技术栈 Hadoop 历史: https://www.jikexueyuan.com/course/677_1.html?ss=1 1. Google大数据与Hadoop对比 2. 大数据分类 2.1 根据数据类型分类 2.1.1 结构化数据 能够用数据或统一的结构加以表示,人们称之为结构化数 ...
分类:
其他好文 时间:
2019-10-13 12:46:24
阅读次数:
103
概述Spark SQL 是 Spark 处理结构化数据的模块; 与基础的 Spark RDD API 不同, Spark SQL 提供的接口提供给 Spark 更多的关于数据和执行计算的结; 内在的, Spark SQL 使用这些额外的信息去执行额外的优化; 这里有几种包括 SQL 和 Datase... ...
分类:
数据库 时间:
2019-10-07 17:41:23
阅读次数:
102
scrapy框架之items项目 Items 主要目标是从非结构化来源(通常是网页)提取结构化数据。Scrapy爬虫可以将提取的数据作为Python语句返回。虽然方便和熟悉,Python dicts缺乏结构:很容易在字段名称中输入错误或返回不一致的数据,特别是在与许多爬虫的大项目。 要定义公共输出数 ...
分类:
其他好文 时间:
2019-10-05 14:19:17
阅读次数:
87
结构化数据 特点:高度组织和格式化;可以用二维表结构来逻辑表达和实现的数据 存储形式:关系型数据库 非结构化数据 特点:数据结构不规则或不完整、数据模型不固定 存储形式:非关系型数据库 绝大部分数据是非结构化的 半结构化数据 非关系模型的、有基本固定结构模式的数据,例如日志文件、XML文档、JSON ...
分类:
其他好文 时间:
2019-10-04 11:21:36
阅读次数:
223
一.概述 数据是对我们所研究现象的属性和特征的具体描述,在分析数据前必须要做的工作就是收集数据。按照存储形式可以将数据划分为结构化数据、非结构化数据和半结构化数据。 1.结构化数据 能够用数据或统一的格式加以表示,简单来说就是数据库。 2.非结构化数据 无法用数据或统一的结构加以表示,如视频、音频、 ...
分类:
其他好文 时间:
2019-10-02 20:44:53
阅读次数:
97
sql 结构化查询语言,一种ansi 的标准计算机语言,为了访问数据库 可以做什么:可以对数据库 和表进行创建于删除, 对表里面的数据进行增删改查、 也可以创建存储过程和视图,对表设置权限 RDBMS (关系型数据库管理系统)是sql 的基础,中的数据存储在表的数据库对象中,表由行和列组成 常见的关 ...
分类:
数据库 时间:
2019-09-30 14:47:59
阅读次数:
100
numpy study 0x01:n维数组对象ndaarray 存放同类型元素的多维数组 0x02:numpy数据类型 numpy 的数值类型实际上是 dtype 对象的实例,并对应唯一的字符,包括 np.bool_,np.int32,np.float32,等等。 字定义结构化数据类型: impor ...
分类:
其他好文 时间:
2019-09-26 21:42:46
阅读次数:
99