页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构,(http://www.baidu.com) 结构化数据:先有结构、再有数据(https://www.qiushi ...
分类:
编程语言 时间:
2020-07-21 13:36:53
阅读次数:
73
爬虫,被称为网络机器人,现在爬虫在我们生活中具有非常重要,可以解决很多繁琐的过程,而python作为爬虫的首选语言,受到很多人的关注和喜欢。那么学习python做爬虫主要学习哪些内容呢?为大家介绍一下。
分类:
编程语言 时间:
2020-07-21 11:38:55
阅读次数:
119
1 案例1:部署LNMP环境 1.1 问题 安装部署Nginx、MariaDB、PHP环境 安装部署Nginx、MariaDB、PHP、PHP-FPM; 启动Nginx、MariaDB、FPM服务; 并测试LNMP是否工作正常。 1.2 方案 目前的网站一般都会有动态和静态数据,默认nginx仅可以 ...
分类:
其他好文 时间:
2020-07-20 15:49:52
阅读次数:
74
实例1: 监听端口,把输入端口的信息以日志的形式输出到控制台中 cd /usr/local/flume/apache-flume-1.6.0-cdh5.9.0-bin/conf vim example.conf # 命名此代理上的组件 agent.sources = seqGenSrc # sour ...
分类:
Web程序 时间:
2020-07-18 22:49:42
阅读次数:
97
zabbix监控配置流程 服务端 192.168.32.136 客户端 192.168.32.125 1. 配置客户端 #安装依赖包 [root@client ~]# yum -y install gcc gcc-c++ pcre-devel #下载软件包,解压安装 [root@client ~]# ...
分类:
其他好文 时间:
2020-07-18 22:33:15
阅读次数:
89
一.代码+注解 import os from PIL import Image import requests import io def save_img(): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) Appl ...
分类:
编程语言 时间:
2020-07-18 19:54:15
阅读次数:
82
1、get方式:如何为爬虫添加ip代理,设置Request header(请求头) import urllib import urllib.request import urllib.parse import random import time from fake_useragent import ...
分类:
编程语言 时间:
2020-07-17 22:29:49
阅读次数:
192
Neutron服务运维 (1)Neutron查询 使用Neutron相关命令查询网络服务的列表信息中的“binary”一列 (2)查询网络详细信息 (3)查询Neutron相关组件服务 使用Neutron相关命令查询网络服务DHCP agent的详细信息(id为查询到DHCP agent服务对应id ...
分类:
其他好文 时间:
2020-07-17 19:51:48
阅读次数:
118
1.打开这个网站http://nginx.org/download/,下载一个结尾为tar.gz的软件包wget http://nginx.org/download/nginx-0.1.10.tar.gz 2.同样打开上面的网站,下载一个结尾为tar.gz的软件包,要求下载之后的软件包名为nginx ...
分类:
系统相关 时间:
2020-07-17 14:12:49
阅读次数:
102
Flume、Logstash、Filebeat对比 日志采集工具对比 1、Flume简介 Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent,Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员,内部有三个组件: ...
分类:
Web程序 时间:
2020-07-15 23:42:18
阅读次数:
161