一.主题式网络主题式网络爬虫设计方案 1.爬虫名称:爬取城市GDP排名 2.爬虫爬取的内容:爬取城市GDP排名 3.网络爬虫设计方案概述:实现思路:在浏览器 中通过F12访问网页源代码,,分析网站源代码,找到自己所需要的数据所在的位置,提取数据,对数据进行保存数据,再对数据进行清洗和处理,数据分析与 ...
分类:
其他好文 时间:
2020-04-23 12:12:12
阅读次数:
113
html 爬虫基础 概念 模拟浏览器发送网络请求,获取响应 分类 通用爬虫 搜索引擎的爬虫,面对整个互联网上所有的网站 聚焦爬虫 针对特定网站的爬虫 分类标准:爬虫爬取的范围 流程 1.url 2.发送请求,获取响应 (提取url地址,发送下一次请求) 3.提取数据 保存 rebots协议 道德层面 ...
分类:
其他好文 时间:
2020-04-20 01:32:33
阅读次数:
90
一、主题式网络爬虫设计方案1.主题式网络爬虫名称:爬取B站热门视频排行榜2.主题式网络爬虫爬取的内容:统计所有投稿视频的数据综合得分,每日更新数据(作品,播放量,弹幕,作者) 3.主题式网络爬虫设计方案概述:找到网站地址,分析网站源代码,找到自己所需要的数据所在的位置,提取数据,进行数据整理,数据可 ...
分类:
其他好文 时间:
2020-04-17 23:55:47
阅读次数:
131
聚焦爬虫的流程 得到url_list即需要爬取的url地址, 发起请求,返回响应内容, 如果响应内容中还有你需要爬取的url再添加到url_list中, 再次发起请求,直到没有url或者不需要爬取的url, 提取数据,提取需要的数据, 最后一步,把数据存入数据库 requests模块 作用:发起请求 ...
分类:
其他好文 时间:
2020-04-12 18:22:17
阅读次数:
52
MVC和MVT设计模式核心: 解耦,让不同的代码块之间降低耦合,增强代码的可扩展性和可移植性 MVC各部分的功能: 1. M全拼为Model,主要封装对数据库层的访问,对数据库中的数据进行增、删、改、查操作 2. V全拼为View,用于封装结果,生成页面展示的html内容 3. C为Controll ...
分类:
编程语言 时间:
2020-04-11 14:39:14
阅读次数:
123
本篇我们来说:下载和处理json格式的文件,并通过pygal中的地图工具来实现数据可视化 总体思路: #1.下载世界人口数量数据文件,提取数据,我们选择分析2010年的人口数量数据#2.数据处理:将数据转换为pygal_maps_world能处理的格式#3.将世界人口划分3大范围:0-1千万、1千万 ...
分类:
编程语言 时间:
2020-04-11 09:20:17
阅读次数:
134
XMLHttpRequest AJAX , Asynchronous JavaScript and XML 的缩写,原指的是通过 JavaScript 的异步通信,从服务器获取 XML 文档从中提取数据,再更新当前网页的对应部分,而不用刷新整个网页。 现在,服务器返回的都是JSON格式的数据,但AJ ...
分类:
编程语言 时间:
2020-04-08 19:14:02
阅读次数:
117
这回咱们用个pandas库 1.首先先看将列表存储到csv: 代码来自于:https://blog.csdn.net/weixin_43245453/article/details/90054820 import pandas as pd #a和b的长度必须保持一致,否则报错 a = [x for ...
分类:
编程语言 时间:
2020-03-29 12:58:33
阅读次数:
90
一、logstash结合kafka收集系统日志和nginx日志 架构图: 环境准备: A主机:kibana、elasticsearch,有条件可以将两个服务器分开:192.168.7.100 B主机:logstash主机:192.168.7.101/nginx服务器也在此主机上 C主机:logsta ...
分类:
其他好文 时间:
2020-03-23 09:48:02
阅读次数:
54
0x01 漏洞简介 Apache Solr 是一个开源的搜索服务器。Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现。此次漏洞出现在Apache Solr的DataImportHandler,该模块是一个可选但常用的模块,用于从数据库和其他源中提取数据。它 ...
分类:
其他好文 时间:
2020-03-20 20:13:06
阅读次数:
129