爬虫的基本流程 1:发起请求 通过HTTP库向目标站点发起请求,即发送一个request,请求可以包含额外的headers等信息等待服务器的响应 2: 获取响应的内容 如果服务器能响应,会得到一个response,Response的内容便是所要获得的野,页面的内容,类型有 可能有HTML,Json字 ...
分类:
其他好文 时间:
2018-08-11 23:20:13
阅读次数:
211
Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级 ...
分类:
Web程序 时间:
2018-08-11 22:05:46
阅读次数:
189
爬虫简介 爬虫:可以把互联网看做是一张大网,爬虫就好像是这张网里的蜘蛛,如果想得到这张网里的资源,就可以将其抓取下来。 简单来说就是请求网站并提取数据的自动化程序。 爬虫的基本流程: 发起请求:通过HTTP库向目标站点发送请求,即发送一个request,请求可以包含额外的headers等信息,等待服 ...
分类:
编程语言 时间:
2018-08-11 15:42:27
阅读次数:
201
一共有九大内置对象: request、response、out、session、application、pageContext、page、config、exception 内置对象(又叫隐含对象),就是在jsp中,不需要创建(由服务器<容器>来创建),可以直接使用的对象。 request 请求对象 ...
分类:
Web程序 时间:
2018-08-09 14:09:08
阅读次数:
236
request的使用 第一种方法 在控制器头部添加request引用 然后在方法里调用 ‘instance’类 然后在调用方法: 结果是: 因为屏幕不够大所以还有一部分没有截图上来,但是大家只要知道怎么使用就可以了。 第二种方法 这个方法比较简单但是也稍微有点麻烦,他只要引用Controller类然 ...
分类:
Web程序 时间:
2018-08-09 12:15:18
阅读次数:
192
DOWNLOAD_FAIL_ON_DATALOSS : 参数:TRUE、FALSE 如果设置为 True : scrapy.Request 有一个 errback 参数, 当 Request 请求出错的时候,会自动调用这个回调函数: 如果处理请求时引发异常,则调用该函数。这包括404个HTTP错误和 ...
分类:
其他好文 时间:
2018-08-02 20:43:08
阅读次数:
178
1、采用restmplate 的postForObject url: 对外发送请求的url地址 request:请求的参数,带请求头。比如这里是参数类型是一个 List<Map<String, Object>> map.class : 请求返回值的类型 这里返回值为一个map 2、如果传入的参数 p ...
分类:
其他好文 时间:
2018-07-31 22:09:28
阅读次数:
226
封装request 请求分发之前先执行initial方法,其中的参数request是封装后的request对象 在initial(request)的外层有异常捕获,即使认证,权限,节流raise错误也无关紧要。这些组件就是通过raise错误来表示认证失败等 版本 基于url的get传参方式 如:/u ...
分类:
其他好文 时间:
2018-07-29 17:58:47
阅读次数:
140
学习内容源自:博客园 金角大王 2018.7.22 Urllib库的基本使用 什么是Urllib? Urllib是python内置的HTTP请求库包括以下基础模块:urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.rob ...
分类:
编程语言 时间:
2018-07-22 18:06:55
阅读次数:
183
[TOC] urllib库 python内置的http请求库 官方文档: 一个web测试网站: 1.urllib.request(请求模块) "返回目录" urlopen 发送请求 + url:链接,字符串 + data:post方式表单,bytes类型 + data = bytes(urllib. ...
分类:
Web程序 时间:
2018-07-21 11:57:08
阅读次数:
307