1、urllib库基础 1.1爬虫的异常处理 常见状态码及含义 301 Moved Permanently:重定向到新的URL,永久性 302 Found:重定向到临时的URL,非永久性 304 Not Modified:请求的资源未更新 400 Bad Request:非法请求 401 Unaut ...
分类:
Web程序 时间:
2019-04-21 00:26:14
阅读次数:
174
在python3中爬虫常用基本库为urllib以及requests 本文主要描述urllib的相关内容 urllib包含四个模块:requests——模拟发送请求 error——异常处理模块 parse——关于URL处理方法的工具模块 robotparser——通过识别网站robot.txt判断网站 ...
分类:
编程语言 时间:
2019-04-20 22:54:02
阅读次数:
206
urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1056) ...
分类:
编程语言 时间:
2019-04-20 12:45:09
阅读次数:
167
# -*- coding: utf-8 -*- """ @Time: 2017/8/11 11:22 @Author: sunxiang """ import urllib import urllib2 import json import sys reload(sys) sys.setdefaul... ...
分类:
编程语言 时间:
2019-04-20 09:56:39
阅读次数:
182
学习python时做了一个爬虫爬取百度贴吧的内容,但是用BeautifulSoup得到的结果使用find_all函数却无法获取。 getCommentInfo.py: 1 from urllib import request 2 import requests 3 from bs4 import B ...
分类:
其他好文 时间:
2019-04-20 00:17:05
阅读次数:
176
urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作。本例试着打开google urlopen返回对象提供方法: - read() , readline() ,readlines ...
分类:
编程语言 时间:
2019-04-19 18:08:50
阅读次数:
142
爬取目标: 收集网站帖子里发帖人用户名,发帖人ID;帖子的ID,发帖内容;网站title 提前需要准备的python库 pip3 install requests //用于获得网站的源码 pip3 install bs4 //解析遍历网站标签 pip3 install urllib //解析网站的u ...
分类:
编程语言 时间:
2019-04-16 00:59:37
阅读次数:
221
import refrom urllib.request import urlopen def getPage(url): response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret = r ...
分类:
编程语言 时间:
2019-04-14 19:22:12
阅读次数:
176
1 #11 按照提示输入歌手名字,爬取该歌手所有歌曲信息 2 3 import requests 4 from bs4 import BeautifulSoup 5 from urllib.request import quote 6 7 w_name = input('请输入你喜欢的歌手名字: '... ...
分类:
其他好文 时间:
2019-04-11 20:57:06
阅读次数:
191
本文介绍Python中的内置函数,Python中有很多内置的,功能强大的函数,可以帮我们解决很多问题,有些方法,根本不需要你去再次编写实现函数,你直接调用就可以。在这之前,需要介绍下,如何在windows上查看内置函数?那些函数是内置函数呢? 1. 打开开始菜单-所有程序-Python3.6,点击一 ...
分类:
编程语言 时间:
2019-04-09 11:09:06
阅读次数:
148