基础包括 head{}字典 存取要传入的包头文件 列如可以认为是通用数据头具体的数据头应抓包获得 模拟登陆 该数据是视觉中国进行模拟登陆 先在视觉中国输入错误的账号密码获取到一个发送值可以调用浏览器页面的检查功能发现获取值为{'username': "*****", 'password': "*** ...
分类:
其他好文 时间:
2019-03-03 20:35:19
阅读次数:
189
最近模拟带账号登陆,查看了一些他人的博客,发现正方教务已经更新了,所以只能自己探索了。 登陆: 通过抓包,发现需要提交的值 需要值lt,这是个啥,其实他在访问登陆页面时就产生了 得到lt的值,加入到自己创建的表单中 根据上面抓包工具中需要的值,创建所需表单 post请求登陆: 我们成功了,哈哈哈,很 ...
分类:
编程语言 时间:
2019-01-29 21:17:49
阅读次数:
250
工具准备 在开始之前,请确保 scrpay 正确安装,手头有一款简洁而强大的浏览器, 若是你有使用 postman 那就更好了。 使用以上命令生成知乎爬虫,代码如下: 有一点切记,不要忘了启用 Cookies, 切记切记 : 模拟登陆 过程如下: 进入登录页,获取 Header 和 Cookie 信 ...
分类:
其他好文 时间:
2019-01-24 14:32:34
阅读次数:
110
爬虫之request 各种请求方式 get post delete put 响应response的属性 爬取梨视频首页视频 模拟登陆github ...
分类:
微信 时间:
2019-01-22 11:51:02
阅读次数:
202
1.Headers: 从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法,还有一些网站会对Referer (上级链接)进行检测 从而实现爬虫。 相应的解决措施:通过审查元素或者开发者工具获取相应的heade ...
分类:
其他好文 时间:
2019-01-20 11:57:27
阅读次数:
175
package com.kuailezhuan;import org.apache.http.*;import org.apache.http.client.ClientProtocolException;import org.apache.http.client.config.RequestCon ...
分类:
其他好文 时间:
2019-01-19 18:41:13
阅读次数:
147
tesseract的介绍 我们爬虫会受到阻碍,其中一个便是我们在模拟登陆或者请求一些数据的时候,出现的图形验证码,因此我们需要一种能叫图形验证码识别成文本的技术。将图片翻译成文字一般称为光学文字识别(optical character recognition),简写为OCRtesseract便是一个 ...
分类:
编程语言 时间:
2019-01-09 14:18:31
阅读次数:
223
本篇博客主要用于介绍如何使用selenium+phantomJS模拟登陆豆瓣,没有考虑验证码的问题,更多内容,请参考:Python学习指南 期初使用driver = webdriver.PhantomJS(),返回的只是,增加了参数就可以了 ...
分类:
编程语言 时间:
2018-12-18 02:05:12
阅读次数:
235
通过CURL模拟登录并获取数据,一些网站需要权限认证,必须登录网站后,才能有效地抓取网页并采集内容,这就需要curl来设置cookie完成模拟登录网页,php的curl在抓取网页内容方面效率是比较高的,而且支持多线程,而file_get_contents()效率就要稍低些。 模拟登录的代码如下所示: ...
分类:
Web程序 时间:
2018-12-11 13:07:01
阅读次数:
290
浏览过程中,图片中的内容可能太小,无法看清,可以>右键>在新标签中打开 Outline 项目原因,需要用selenium实现模拟登陆、模拟上传文件,自然就需要模拟点击【上传】按钮; 模拟点击之前需要通过selenium提供的“方法”去定位到要点击的元素; 模拟登陆过程中,全程都可以定位到需要点击的元 ...
分类:
其他好文 时间:
2018-11-17 17:57:02
阅读次数:
305