from bs4 import BeautifulSoupimport urllib.requestimport timedef get_request(url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64 ...
分类:
其他好文 时间:
2019-10-06 11:14:42
阅读次数:
110
from multiprocessing.dummy import Pool #线程池模块 #必须只可以有一个参数 def my_requests(url): return requests.get(url=url,headers=headers).text start = time.time() ...
分类:
编程语言 时间:
2019-10-05 14:48:06
阅读次数:
99
scrapy框架之spider 爬取流程 Spider类定义如何爬取指定的一个或多个网站,包括是否要跟进网页里的链接和如何提取网页内容中的数据。 爬取的过程是类似以下步骤的循环: 1.通过指定的初始URL初始化Request,并指定回调函数。当Request下载完后,生成Response作为参数传给 ...
分类:
其他好文 时间:
2019-10-05 14:42:40
阅读次数:
61
get基本请求 响应对象的属性: 1 2 3 4 5 6 7 8 9 10 # 获取响应对象中的内容是str格式 text # 获取响应对象中的内容是二进制格式的 content # 获取响应状态码 status_code # 获取响应头信息 headers # 获取请求的url url 1 2 3 ...
分类:
其他好文 时间:
2019-10-05 14:23:51
阅读次数:
203
/users options: summary: CORS support description: | Enable CORS by returning correct headers consumes: - application/json produces: - application/jso... ...
首先要使用的第类库有 urllib下的request 以及urllib下的parse 以及 time包 random包 之后我们定义一个名叫BaiduSpider类用来爬取信息 属性有 url:用来爬取的网址 headers:请求头 之后我们定义三个方法 不涉及清洗数据 获取页面 保存数据 主函数 ...
分类:
编程语言 时间:
2019-10-03 21:55:36
阅读次数:
98
大家好,今天聊一聊有关文件的下载个上传。 需求:通过busybox搭建一个文件站点,在站点上放一些文件,通过程序,将站点上的文件下载,然后上传到 https://pastebin.com上,必须是以用户身份上传。 分析:第一步:如何从文件站点拿到文件,第二步:怎样将文件以用户身份上传 关于如何利用b ...
分类:
Web程序 时间:
2019-10-03 14:37:57
阅读次数:
104
一、Laravel 中 ajax 请求需要设置 header 二、session 过期时间 三、格式化表中存入的时间 四、多次请求 五、查看 SQL 持续补充中。。。 ...
分类:
其他好文 时间:
2019-10-02 17:07:47
阅读次数:
100
http/https协议特性: -无状态 - 发起第二次基于个人主页页面请求时,服务器端不知道此请求基于登陆状态下的请求 cookie: -用来让服务器记录客户端相关状态 解决方式 - 手动处理:通过抓包工具获取cookie值,把cookie封装到headers中 headers = {‘Cooki ...
分类:
其他好文 时间:
2019-10-01 20:56:58
阅读次数:
142