# 爬虫网络请求方式:urllib(模块), requests(库), scrapy, pyspider(框架)# 爬虫数据提取方式:正则表达式, bs4, lxml, xpath, css哪种方法都可以用,可以根据实际情况选用方式 ...
分类:
其他好文 时间:
2018-06-09 13:14:40
阅读次数:
104
https://blog.csdn.net/zd147896325/article/details/78957901 Python 3.x版本后的urllib和urllib2 现在的Python已经出到了3.5.2 在Python 3以后的版本中,urllib2这个模块已经不单独存在(也就是说当你i ...
分类:
编程语言 时间:
2018-06-07 13:58:05
阅读次数:
295
urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得url的html内容,然后使用BeautifulSoup抓取某个标签内容,结合正则表达式过滤。但是,用u ...
分类:
Web程序 时间:
2018-05-27 16:20:49
阅读次数:
276
1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开的网址 - data:Post提交的数据 - ...
分类:
Web程序 时间:
2018-05-22 00:49:40
阅读次数:
284
建议使用requests模块,不建议使用urllib模块 ...
分类:
其他好文 时间:
2018-05-18 18:06:20
阅读次数:
138
首先urlib并不是一个很好用的方法,这里仅作简单介绍。一般我们用requests方法来代替urlib方法。 1. get请求 第1行:从urllib中导入request函数,也可以写成:import urllib.request 第2行:get请求的url链接,如果是在接口测试中,后面应带上参数, ...
分类:
Web程序 时间:
2018-05-17 20:38:03
阅读次数:
167
上篇博客中我们使用python自带的urllib模块去请求一个网站,或者接口,但是urllib模块太麻烦了,传参数的话,都得是bytes类型,返回数据也是bytes类型,还得解码,想直接把返回结果拿出来使用的话,还得用json,发get请求和post请求,也不通,使用比较麻烦,还有一个比较方便的模块 ...
分类:
编程语言 时间:
2018-05-17 13:54:28
阅读次数:
138
# 这是学习廖雪峰老师python教程的学习笔记相比于Python内置的urllib模块,使用requests可以更好地处理URL资源。1、使用requests 1)通过GET访问一个页面>>> import requests>>> r = requests.get('https://www.douban.c
分类:
编程语言 时间:
2018-05-16 22:39:38
阅读次数:
227
一、网络编程 简而言之,就是通过代码打开一个url,获得返回结果并做处理。通常所说的python爬虫,就属于网络编程 二、urllib模块进行网络编程 这个方法很繁琐,不建议使用。了解 示例1: 获取一个网页内容,写入文件 示例2: 获取接口返回结果,做判断 示例3: 有参数传入时,用parse拼接 ...
分类:
编程语言 时间:
2018-05-16 20:46:16
阅读次数:
174
### 方法一:urllib 模块 ### from urllib import request python 自带模块(标准模块) (不推荐使用) url = 'http://www.baidu.com' req = request.urlopen(url) 打开一个 url print(req. ...
分类:
其他好文 时间:
2018-05-14 19:53:12
阅读次数:
145