干活干活,区区懒癌已经阻挡不了澎湃的洪荒之力了...... 运行环境:Windows基于python3.6 抓取视频时遇到M3U8的确挺烦人的,去年年底实习,由于项目需求所以和一个同事主攻蟒蛇爬虫,抓取含有清晰人脸的图片和视频,在爬取一些视频网站和直播网站时就被“它”糊了一脸,作为一只,呃,不对,是 ...
分类:
编程语言 时间:
2018-08-19 20:01:14
阅读次数:
274
最近入手学习Python3的网络爬虫开发方向,入手的教材是崔庆才的《python3网络爬虫开发实战》,作为温故所学的内容同时也是分享自己操作时的一些经验与困惑,所以开了这个日记,也算是监督自己去学习。在这一系列的日记中我也会随时加上一些书中没有的内容作为对所学知识的一个补充。 (1)使用urllib ...
分类:
编程语言 时间:
2018-08-19 13:59:57
阅读次数:
163
2.request 首先上实例 与之前一样生成了python官网的内容,但这次我们构造的是一个Request类,我们可以将请求独立成一个对象,也可以配置参数 class.urllib.request.Request(url , data = None , headers = {} , origin_ ...
分类:
编程语言 时间:
2018-08-19 13:59:47
阅读次数:
188
这一节我们主要讲解处理异常 在我们发送请求的时候,有的时候可能网络不好,出现了异常,程序因为报错而终止运行,为此我们需要对其进行处理 urllib里的error模块定义了request模块产生的异常,下面便介绍里面的函数: URLError 该类是继承自OSError类,是error异常模块的基类, ...
分类:
编程语言 时间:
2018-08-19 13:59:14
阅读次数:
170
urllib.urlopen() 参数: url:url或文件名 data:如果有,则变成post方法 返回: 类文件句柄 类文件句柄的常用方法: read(size) readline() readlines() close() getcode() info() 返回httplib.HttpMes ...
分类:
Web程序 时间:
2018-08-18 18:32:21
阅读次数:
205
urllib,urllib2 urllib库主要用 urlencode()把字典转换成url的get参数或者post参数 或者用 quote() 进行编码unquote进行解码 用urllib2.ProxyHandler(proxy_list)创建代理处理器,urllib2.HTTPHandler创 ...
分类:
编程语言 时间:
2018-08-18 13:13:48
阅读次数:
162
二、代码 代码直接参考了下文,更多解读参见原文,其中将ip提取部分修改了下,并将用来测试IP是否可用的百度url改成了CSDN博客里文章的url。 进群:548377875 即可获取数十套PDF哦! 另外也试了下豆瓣......嗯,立马就“403”,上不去了,所以看了本文想刷其他网站数据的朋友,还是 ...
分类:
编程语言 时间:
2018-08-17 14:57:38
阅读次数:
174
import re import requests import os from urllib import request import json from mysql_tu import mysql_conn headers = { 'user-agent': 'Mozilla/5.0 (Win... ...
分类:
其他好文 时间:
2018-08-17 00:44:09
阅读次数:
140
环境:python3 pycharm 模块:requests,xlwt,urllib.request,re 正常三步走: 1.获取源代码 2.匹配源代码,获得目标数据 3.存储到文件中 直接上代码,列举两种获取源代码的方式,存储3中文件的方式。自由选择即可。 第一个标红部分引号里面的是网站url,太 ...
分类:
编程语言 时间:
2018-08-17 00:40:55
阅读次数:
180