不想误导,若有错误,希望各位不吝指教!! 代理:proxies参数 格式: 1 proxies = { 2 "http": "http://12.34.56.79:9527", 3 "https": "http://12.34.56.79:9527", 4 } 私密代理: 1 # 如果代理需要使用H ...
分类:
其他好文 时间:
2020-06-11 10:28:55
阅读次数:
52
今天终于实现了爬虫,爬取到了一定的信息 代码: # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import bs4 from selenium import webdriver from time impor ...
分类:
其他好文 时间:
2020-06-11 01:05:51
阅读次数:
116
今天还是学习python爬取,今天电脑的sdk环境还有python环境出了点问题,在查找资料仍无法解决之后,删除重新配置了一遍,利用hello world测试了python。然后上网找了爬虫的代码进行尝试,但是结果不尽如人意,爬出来很多垃圾数据。明天准备找点视频资料,认认真真的学一学爬虫,不在是找现 ...
分类:
其他好文 时间:
2020-06-11 00:43:25
阅读次数:
56
爬取诗词总量为二十九万两千六百零二条数据 一、爬虫编写 目标网站:诗词名句网 环境 window10; python3.7; scrapy框架; mysql数据库; 数据库设计 根据要爬取的字段定义,爬取内容为诗词链接,简介,标题,作者,朝代,内容,注释,作者发表的文章数量,图片url 如图 1.创 ...
分类:
其他好文 时间:
2020-06-10 23:07:58
阅读次数:
123
增量式爬虫 概念:监测网站数据更新的情况。 核心:去重!!! 主要有两种情况: 深度爬取类型 深度爬取类型的网站中需要对详情页的url进行记录和检测 记录:将爬取过的详情页的url进行记录保存 url存储到redis的set中 检测:如果对某一个详情页的url发起请求之前先要取记录表中进行查看,该u ...
分类:
其他好文 时间:
2020-06-10 20:50:20
阅读次数:
75
requests #!/usr/bin/env python3 # -*- coding: utf-8 -*- import requests import re url = "" hd = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x6 ...
分类:
编程语言 时间:
2020-06-10 11:21:25
阅读次数:
116
有个同学找我帮忙:明天是她朋友的生日,但她没时间发送祝福,问我能不能弄个自动发送。我想,QQ并没有内置的定时发送功能,紧接着又想起了QQ刷屏助手(见我以前的博文)便用Python实现了她提出的需求。 ...
分类:
其他好文 时间:
2020-06-09 23:33:57
阅读次数:
61
缺失值清洗: 1. 确定缺失值范围:根据缺失值范围来选择下一步操作; 2. 去除不需要的字段:直接删除该字段数据; 3. 填充:根据经验、建模预测等填充缺失值; 4. 重新获取:若信息很重要,确实率很高,可重新获取; 格式内容清洗 1. 时间、日期等,统一其格式; 2. 内容中不该存在的字符:如空格 ...
分类:
其他好文 时间:
2020-06-09 19:02:51
阅读次数:
82
异步爬虫 异步的由来 在我们爬取网站时,通常会有阻塞操作,比如:请求页面,IO等, 如果说爬取的网站数量不是很多,对于阻塞的时间就不会有太大的感官性,那如果数量成百上千,甚至上万呢? 所以需要一种方法来解决阻塞的问题,也就是采用异步的方式 异步的实现方式: 方式1:多线程、多进程() 优点: 缺点: ...
分类:
其他好文 时间:
2020-06-09 18:44:02
阅读次数:
87
scrapy中间件 scrapy中间有两种:爬虫中间件,下载中间件 爬虫中间件:处于引擎和爬虫spider之间 下载中间件:处于引擎和下载器之间 主要对下载中间件进行处理 下载中间件 作用:批量拦截请求和响应 拦截请求 UA伪装:将所有的请求尽可能多的设定成不同的请求载体身份标识 request.h ...
分类:
其他好文 时间:
2020-06-09 18:34:48
阅读次数:
89