数据采集利用各种手段获取数据,数据样式不限制,但一般而言是形如excel或者csv这样的表格格式。数据采集:urllib,requests数据解析:Xpath,BS4,正则表达式数据持久化存储:pd.to_csv,pd.to_excel,MySQL,Redis数据预处理一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题。数据预处理占到数据挖掘工作的60%,这是最重
分类:
编程语言 时间:
2020-05-03 00:58:59
阅读次数:
67
[TOC] 安装 1.scrapy框架介绍 2.文件解释 3.项目说明 4.数据流向 5.常规操作 6.scrapy框架 模块详解 7.中间件 8.数据持久化 8.构建post请求 ...
分类:
其他好文 时间:
2020-05-01 10:51:08
阅读次数:
64
场景 Angular介绍、安装Angular Cli、创建Angular项目入门教程: https://blog.csdn.net/BADAO_LIUMANG_QIZHI/article/details/105570017 Angular新建组件以及组件之间的调用: https://blog.csd ...
分类:
其他好文 时间:
2020-04-28 22:55:50
阅读次数:
64
一、主题式网络爬虫设计方案 1、主题式网络爬虫名称:爬取知乎热度数据并数据分析及可视化 2、爬取的内容:知乎热搜的标题、排行、热度 数据特征:随机、以文字和数字为主 3、实现思路:首先查看所要爬取页面的源代码,找到所需要爬取的数据在源代码中的位置,接下来进行数据爬取,并将爬取的数据持久化,保存在ex ...
分类:
其他好文 时间:
2020-04-23 21:03:53
阅读次数:
91
一、JDBC概述 1.1 数据的持久化 持久化(persistence): 把数据保存到可掉电式存储设备中以供之后使用 。大多数情况下,特别是企业级应用, 数据持久化意味着将内存中的数据保存到硬盘 上加以”固化” ,而持久化的实现过程大多通过各种关系数据库来完成 。 持久化的主要应用是将内存中的数据 ...
分类:
数据库 时间:
2020-04-18 14:19:13
阅读次数:
84
如何对NameNode中数据持久化 FsImage:保存NameNode当前这一时刻数据状态 Editslog:日志文件,只记录client到hdfs写操作(二进制文件) Editslog和FsImage会定期合并,这项任务由SecondNameNode执行,当在合并的时候,客户端执行的写操作不再写 ...
分类:
其他好文 时间:
2020-04-18 12:14:46
阅读次数:
64
什么是事务 1.概述:事务指的是逻辑上的一组操作,组成这组操作的单元,要不同时成功,要不同时失败 2.作用:保证在一个事务中,多次SQL操作要么同时成功,要么同时失败 JDBC操作事务 事务管理流程 1.开启事务 2.执行多条SQL语句,如果没有出现错误,提交事务,将数据持久化存储到数据库 3.执行 ...
分类:
数据库 时间:
2020-04-17 23:41:45
阅读次数:
100
使用场景 大数据:数据量和速率激增,数据类型越来越复杂 应用开发:消息引擎,应用解耦,分布式存储,流处理 Kafka的体系结构 topic : 主题(消息的逻辑分类) 客户端: 细分为生产者(朝主题发送消息), 消费者(读取主题的消息); 服务端: broker (1 处理客户端发送和提供消费支持 ...
分类:
其他好文 时间:
2020-04-17 11:08:28
阅读次数:
73
十,Redis的RDB存储方式 10.1 redis的运行方式说明 redis如果提供缓存服务,可以关闭所有持久化存储,如此一来redis重启后所有数据会丢失 开启rdb或aof持久化存储,能把redis中的数据持久化到磁盘中。 rdb和aof对性能都有影响,所以建议持久化的操作在从库上进行 10. ...
分类:
数据库 时间:
2020-04-17 00:20:43
阅读次数:
194
ORM(Object Relational Mapping) 设计模式,思想 对象关系映射,是一种数据持久化技术。它在对象模型和关系型数据库之间建立起对应关系,并且提供了一种机制,通过JavaBean对象去操作数据库表中的数据。 Object Relation Mapping 对象 关系 映射 Ob ...
分类:
其他好文 时间:
2020-04-12 20:35:12
阅读次数:
92