客户端程序:获取或缓存文档 向服务器提交请求或数据 9.1Python客户端 Requests库 基本接口(urllib)提供可调用的方法,用于:打开HTTp连接,发起请求,等待接收响应头,打包响应对象,响应体留在套接字的接受队列,程序员需要时读取响应体。 HTTP:不允许客户端在收到上个请求响应前 ...
分类:
Web程序 时间:
2018-06-24 11:47:24
阅读次数:
198
from gevent import monkey import gevent import urllib.request #有IO才做时需要这一句 monkey.patch_all() def my_downLoad(file_name, url): print('GET: %s' % url) ... ...
分类:
其他好文 时间:
2018-06-24 10:25:10
阅读次数:
124
request库 虽然Python的标准库中 urllib.request 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更简洁方便。 Requests 唯一的一个非转基因的 Python H ...
分类:
编程语言 时间:
2018-06-23 19:17:54
阅读次数:
3626
#!/usr/bin/python # -*- coding:utf8 -*- import requests import re import os import time # from urllib import json from bs4 import BeautifulSoup from d... ...
分类:
编程语言 时间:
2018-06-22 19:58:00
阅读次数:
393
from urllib import request from time import sleep from lxml import etree import csv # import random #sleep(random.random(1)*2) 随机秒数 # 参数部分 # sz_url = ... ...
分类:
其他好文 时间:
2018-06-20 14:33:12
阅读次数:
194
1、打开sublime text 3 2、Ctrl+`打开控制台或者View->Show Console菜单打开命令行,输入下面这段代码后按Enter键 import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = s ...
分类:
其他好文 时间:
2018-06-19 16:17:45
阅读次数:
120
需求 抓取2018年四川大学自主招生初审通过名单信息。 具备知识 1.正则表达式。 2.python基础语法,爬虫和数据库操作。 操作 1.抓取网页。 2.解析出需要的数据。 3.继续抓取下一个页面,重复12步骤直到到尾页停止。 4.将解析出来的数据存入数据库。 实例 采用python3.6和mys ...
分类:
编程语言 时间:
2018-06-18 16:00:31
阅读次数:
183
自动化测试工具,支持多种浏览器,在爬虫中主要用来解决JavaSript渲染的问题。 (驱动浏览器,发送一些指令,让浏览器完成一些动作) requests urllib这些库无法正常获取网页内容时,这些网页可能是后来javascript渲染过的,用selenium可以完成渲染,获取到网页渲染完后的源代 ...
分类:
其他好文 时间:
2018-06-16 18:41:09
阅读次数:
175
什么是爬虫? 就是抓取网页数据的程序 爬虫怎么抓取网页数据? 网页三大特征: 网页都有自己唯一的URL。 网页都是HTML来描述页面信息。 网页都使用http/https协议来传输HTML数据。 爬虫的设计思路: 获取视频ID 拼接完整url 获取视频播放地址 下载视频 模块使用 requests ...
分类:
编程语言 时间:
2018-06-16 16:19:31
阅读次数:
175