(1) urllib.request.urlopen()方法可以实现最基本请求的发起,但这几个简单的参数并不足以构建一个完整的请求(2) 我们可以使用 urllib.request.Request() 先构造一个请求对象,这个请求对象可以包含请求头信息,或者包含要向服务器传递的数据,然后再发送请求( ...
分类:
Web程序 时间:
2019-03-14 16:42:22
阅读次数:
195
urllib.request.urlopen(url, data=None, timeout=n) 用于发送HTTP请求并得到响应内容 data 参数: (1) 该参数是可选的,如果要添加,则必须通过 urllib.parse.urlencode() 转换成字节流编码格式(2) 另外,如果传递了这个 ...
分类:
Web程序 时间:
2019-03-14 16:41:11
阅读次数:
199
一、函数的定义: 定义:def 关键词开头,空格之后接函数名称和圆括号(),最后还有一个":"。 def 是固定的,不能变,必须是连续的def三个字母,不能分开。。。 空格 为了将def关键字和函数名分开 函数名:必须由字母下划线数字组成,不能是关键字,不能是数字开头,函数名还是要有一定的意义能够简 ...
分类:
编程语言 时间:
2019-03-08 12:43:48
阅读次数:
167
Python非常适合用来开发网页爬虫,理由如下:1、抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁;相比其他动态脚本语言,如perl,shell,python的urllib包提供了较为完整的访问网页文档的API。(当然ruby也是很好的选择) ...
分类:
其他好文 时间:
2019-03-07 17:57:31
阅读次数:
132
用的BeautifulSoup写的,比较简单。写得也不好,多见谅。剑来! ...
分类:
其他好文 时间:
2019-03-04 21:15:46
阅读次数:
543
1.处理验证码 import http.client, mimetypes, urllib, json, time, requests ###################################################################### class YDMHt ...
分类:
其他好文 时间:
2019-03-04 19:05:44
阅读次数:
131
一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2。 一般是用urllib 库 爬取图片比 ...
分类:
Web程序 时间:
2019-03-03 12:22:08
阅读次数:
218
一 . requests模块的学习 什么是requests模块 ? requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 为什么要使用requests模块 因为在使用urllib模块的时候,会有诸 ...
分类:
其他好文 时间:
2019-03-03 00:01:12
阅读次数:
253
题目:一个html文件,找出里面的链接代码:from html.parser import HTMLParserimport urllib.requestclass myhtml(HTMLParser): def __init__(self): HTMLParser.__init__(self) s... ...
分类:
Web程序 时间:
2019-02-28 16:50:42
阅读次数:
171
一. 弄懂HTTP、Socket、TCP这几个概念二. client和server实现通信 服务端 客户端 socket发送http请求 写类模拟urllib类 urllib和socket区别 urllib支持client,但是socket支持server、client等等 urllib支持http ...
分类:
编程语言 时间:
2019-02-27 22:04:06
阅读次数:
166