码迷,mamicode.com
首页 >  
搜索关键字:urlopen    ( 699个结果
爬虫陷阱
目前,我们的爬虫会跟踪所有之前没有访问过的链接。但是,一些网站会动态生成页面内容,这样就会出现无限多的网页。比如,网站有一个在线日历功能,提供了可以访问下个月和下一年的链接,那么下个月的页面中同样会包含访问再下个月的链接,这样页面就会无止境地链接下去,这种情况被称为爬虫陷阱。 想要避免陷入爬虫陷阱, ...
分类:其他好文   时间:2018-11-10 12:31:04    阅读次数:177
豆瓣 URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:719)>
import urllib.request as urlrequest #import ssl#ssl._create_default_https_context = ssl._create_unverified_contexturl_visit='https://api.douban.com/v2 ...
分类:Web程序   时间:2018-11-09 12:11:44    阅读次数:221
简单爬取网页源码
import urllib.request url = 'http://www.baidu.com/' response = urllib.request.urlopen(url) data = response.read() str_data = data.decode('utf_8') # pr... ...
分类:Web程序   时间:2018-11-08 18:21:58    阅读次数:188
Urllib库:python内置的http请求库
1、四个模块: request error parse robotparser 2、urlopen(url, data, timeout) 发送请求 get请求无data; post请求有data 3、read() 获取响应体的内容 4、Handler 代理IP 5、cookie 维持登录状态 6、 ...
分类:编程语言   时间:2018-11-04 14:48:36    阅读次数:169
协程实现爬虫的例子主要优势在于充分利用IO时间去请求其他的url
# 分别使用urlopen和requests两个模块进行演示 # import requests # 需要安装的 # from urllib.request import urlopen # # url = 'http://www.baidu.com' # # # res1 = urlopen(ur... ...
分类:Web程序   时间:2018-10-28 17:58:53    阅读次数:159
爬虫2
1、构建请求对象 headers = { 这里面写需要定制的请求头,想定制哪个定制哪个 } request = urllib.request.Request(url=url, headers=headers) response = urllib.request.urlopen(request) 2、 ...
分类:其他好文   时间:2018-10-26 13:17:23    阅读次数:207
进程池与回调函数与正则表达式和re爬虫例子
# 使用进程池的进程爬取网页内容,使用回调函数处理数据,用到了正则表达式和re模块 import re from urllib.request import urlopen from multiprocessing import Pool def get_page(url,pattern): res... ...
分类:系统相关   时间:2018-10-23 22:58:32    阅读次数:168
豆瓣电影 Top 250
# by luffycity.comimport refrom urllib.request import urlopendef getPage(url): # 获取网页的字符串 response = urlopen(url) return response.read().decode('utf-8 ...
分类:其他好文   时间:2018-10-15 16:16:50    阅读次数:173
爬虫链家网站获取信息
import re import json from urllib.request import urlopen import ssl # ?掉数字签名证书 ssl._create_default_https_context = ssl._create_unverified_context ersh... ...
分类:Web程序   时间:2018-10-14 14:09:30    阅读次数:149
爬虫初识(爬取dytt电影列表及下载地址)
import re from urllib.request import urlopen def getPage(url): response=urlopen(url) return response.read().decode('gbk',errors='ignore') def parsePag... ...
分类:其他好文   时间:2018-10-12 21:21:10    阅读次数:187
699条   上一页 1 ... 13 14 15 16 17 ... 70 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!