1、pip安装模块 pip install 模块名称 -i 安装源 pip install requests -i https://mirrors.aliyun.com/pypi/simple/ ...
分类:
编程语言 时间:
2020-01-29 19:54:11
阅读次数:
74
import requests#d导入requests模块from multiprocessing import Pool#进程池from requests.exceptions import RequestException#用于异常处理import jsonimport re#导入正则表达式he ...
分类:
其他好文 时间:
2020-01-26 22:25:01
阅读次数:
77
1. 请求方式 # 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) # 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请 ...
分类:
编程语言 时间:
2020-01-14 10:09:17
阅读次数:
124
import requests url = "http://www.baidu.com/s?ie=UTF8&wd=ip" #代理 proxies = { 'http':'121.41.171.223.3128' } #添加头部 headers = { 'User-Agent': 'Mozilla/5 ...
分类:
其他好文 时间:
2020-01-12 18:12:08
阅读次数:
89
1.代理 代理服务器,可以接受请求然后将其转发 1.匿名度 1. 高匿:不知道你使用了代理,也不知道你的真实ip 2. 匿名: 知道你使用了代理,但是不知道你的真实ip 3. 透明:知道你使用了代理并且知道你的真实ip 2.类型 http https 3.免费代理的网站 - http://www.g ...
分类:
其他好文 时间:
2020-01-11 18:25:33
阅读次数:
80
安装requests模块 pip install -U requests 加 “-U” 是为了安装最新版本的requests 使用requests模块封装一个login方法,并将获取到的token返回 这样就解决了鉴权的问题 遇到的坑 1、不同的接口,请求时,headers里面的Content-Ty ...
分类:
编程语言 时间:
2020-01-11 11:30:06
阅读次数:
85
爬虫学习 05.Python网络爬虫之三种数据解析方式 引入 回顾requests实现数据爬取的流程 1. 指定url 2. 基于requests模块发起请求 3. 获取响应对象中的数据 4. 进行持久化存储 其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据解析。因为大多 ...
分类:
编程语言 时间:
2020-01-09 19:16:10
阅读次数:
150
爬虫学习 06.Python网络爬虫之requests模块(2) 今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取 知识点回顾 xpath的解析流程 bs4的解析流程 常用xpath表达式 常用bs4解析方法 了解cookie和session \ 无 ...
分类:
编程语言 时间:
2020-01-09 19:01:29
阅读次数:
118
爬虫学习 04.Python网络爬虫之requests模块(1) 引入 Requests 唯一的一个 非转基因 的 Python HTTP 库,人类可以安全享用。 警告 :非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。 ...
分类:
编程语言 时间:
2020-01-09 18:52:28
阅读次数:
102
一 爬虫基本原理: ? 1.什么是爬虫? 爬取数据 什么是互联网? 互联网是由一堆网络设备,将世界上所有的电脑互联到一起; 2.为什么要使用爬虫技术? requests 模块底层帮我们封装好了socket套接字,我们只需要关注http协议的通信流程; 普通用户获取数据: 打开浏览器,输入网址 访问目 ...
分类:
其他好文 时间:
2020-01-03 00:04:21
阅读次数:
77