码迷,mamicode.com
首页 >  
搜索关键字:模拟浏览器    ( 394个结果
requests模块
阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页 ...
分类:其他好文   时间:2018-01-17 01:14:23    阅读次数:268
利用python爬取天气预报然后发送给微信好友
需要利用微信的api接口,itchat。然后来看一下代码:#!/usr/bin/python#-*-coding:utf-8-*-importitchatimportreimporturllib2importitchat#模拟浏览器hearders="User-Agent","Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,like
分类:微信   时间:2018-01-17 01:08:12    阅读次数:365
urllib2高级特性使用
urllib2高级特性使用设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内
分类:Web程序   时间:2018-01-16 18:27:07    阅读次数:160
爬虫之selenium模块
selenium模块 介绍 安装 基本使用 选择器 基本用法 xpath 获取标签属性 等待元素被加载 1、selenium只是模拟浏览器的行为,而浏览器解析页面是需要时间的(执行css,js),一些元素可能需要过一段时间才能加载出来,为了保证能查找到元素,必须等待 2、等待的方式分 两种: 隐式等 ...
分类:其他好文   时间:2018-01-16 12:12:51    阅读次数:232
requests模块
阅读目录 一 介绍 二 基于GET请求 三 基于POST请求 四 响应Response 五 高级用法 一 介绍 #介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #注意:requests库发送请求将网页 ...
分类:其他好文   时间:2018-01-15 22:37:08    阅读次数:239
爬虫基础一
一 爬虫的定义和主要的功能 定义:爬虫就是向网站发起请求,获取资源后分析并提取有用的数据。 爬虫主要做的是什么? 模拟浏览器发送请求 》下载网页源代码 》提取有用的数据 》存放在数据库或者文件中 二 爬虫的基本流程以及请求与响应 基本流程: 请求与响应 三request 四 response 总结 ...
分类:其他好文   时间:2018-01-15 22:29:13    阅读次数:205
在python获取网页的代码中添加头信息模拟浏览器
为什么要添加头部信息,因为有时候有些网页会有反爬虫的设置,导致无法获取正常的网页,在这里,在代码的头部添加一个headers信息,模拟成浏览器去访问网页。没有添加头部信息的代码importurllib2url="http://blog.51cto.com/lsfandlinux/2046467"file=urllib2.urlopen(url)html=file.read()printhtml接下
分类:编程语言   时间:2018-01-14 19:35:47    阅读次数:221
爬虫之request模块
爬虫之request模块 request简介 基于GET请求 基本请求 带参数的get请求 headers 请求头 User Agent 我们要用爬虫来爬取数据究其本质就是通过脚本模拟浏览器来进行操作,在任何一个html界面我们通过f12来调用代码,通过network选项来找到请求头进行操作! 一般 ...
分类:其他好文   时间:2018-01-11 20:31:35    阅读次数:219
curl模拟请求常用参数
封装一个curl模拟浏览器请求的函数,如下: /** * curl模拟浏览器请求 * @param unknown $url 请求的地址 * @param array $params 请求地址所需要的参数 * @param string $method 请求的类型 * @param array $h... ...
分类:Web程序   时间:2017-12-29 20:00:17    阅读次数:239
python爬虫:使用Selenium模拟浏览器行为
前几天有位微信读者问我一个爬虫的问题,就是在爬去百度贴吧首页的热门动态下面的图片的时候,爬取的图片总是爬取不完整,比首页看到的少。原因他也大概分析了下,就是后面的图片是动态加载的。他的问题就是这部分动态加载的图片该怎么爬取到。 分析 他的代码比较简单,主要有以下的步骤:使用 库,打开百度贴吧的首页地 ...
分类:编程语言   时间:2017-12-23 11:57:13    阅读次数:1157
394条   上一页 1 ... 20 21 22 23 24 ... 40 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!