码迷,mamicode.com
首页 > 编程语言 > 详细

python验证码识别

时间:2020-07-28 10:06:43      阅读:73      评论:0      收藏:0      [点我收藏+]

标签:二次   ESS   个人   基于   建议   需求   手动   head   模拟   

验证码识别

反爬机制:验证码 识别验证码图片中的数据用于模拟登录相关之间真的操作

识别验证码的操作:
- 人工肉眼的识别
- 第三方自动识别
- 云打码
模拟登录:
- 爬取基于某些基于用户的用户信息.
需求:对人人网进行模拟登录
- 点击登录按钮之后会发起一个post请求
- post请求中会携带登陆之前录入的相关的登录信息(用户名,密码,验证码......)
- 验证码:每次请求都会变化
需求:
爬取当前用户的相关用户信息(个人主页中相关的用户信息)

http/https协议特征:无状态
没有请求到对应数据的原因:
发起的第二次基于个人
cookie:用来让服务器端记录客户端的相关状态
- 手动处理:通过抓包工具获取cookie值,将该值封装到headers中。(不建议)
- 自动处理:
- cookie值的来源是哪里?
- 模拟登录post请求后,由服务器端创建.
- session会话对象:
- 作用:
- 可以进行请求的发送。
- 如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。
- 创建一个session对象,session= requests.Session()
- 使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)
- session对象对个人主页对应的get请求进行发送(携带了cookie)

代理:
破解封IP这种反爬机制

什么是代理:
- 代理服务器
代理的作用:
- 可以突破自身IP访问的限制
- 可以隐藏自身IP被攻击、真实IP

代理相关的网站:
- 快代理
- 西祠代理
- www.goubanja.com

python验证码识别

标签:二次   ESS   个人   基于   建议   需求   手动   head   模拟   

原文地址:https://www.cnblogs.com/gerenboke/p/13389060.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!