一、什么是Selenium? 答:自动化测试工具,支持多种浏览器。用来驱动浏览器,发出指令让浏览器做出各种动作,如下拉,跳转等。 爬虫中主要用来解决JavaScript渲染的问题。 注:如果用requests,urllib这些库无法正常获取网页内容,可以用Selenium来完成渲染 二、安装 三、基 ...
分类:
编程语言 时间:
2018-08-03 00:57:13
阅读次数:
134
from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen("http://www.pythonscraping.com/pages/page1.html")bsobj=BeautifulSoup(html. ...
分类:
其他好文 时间:
2018-08-02 11:21:58
阅读次数:
110
自己写了百度贴吧的爬虫,分别用urllib+正则和requests+xpath两种方式,对比了执行效率
分类:
其他好文 时间:
2018-08-02 11:16:13
阅读次数:
110
import urllib.request import urllib.parse import ssl ssl._create_default_https_context = ssl._create_unverified_context from lxml import etree def loa... ...
分类:
其他好文 时间:
2018-08-02 01:48:24
阅读次数:
138
python实现HTTP请求的三中方式:urllib2/urllib、httplib/urllib 以及Requests urllib2/urllib实现 urllib2和urllib是python两个内置的模块,要实现HTTP功能,实现方式是以urllib2为主,urllib为辅 1 首先实现一个 ...
分类:
编程语言 时间:
2018-08-01 22:31:40
阅读次数:
257
httplib模块是一个底层基础模块,可以看到建立HTTP请求的每一步,但是实际的功能比较少。在python爬虫开发中基本用不到 下面详细介绍httplib提供的常用类型和方法: httplib.HTTPConnection ( host [ , port [ , strict [ , timeou ...
分类:
Web程序 时间:
2018-08-01 22:19:22
阅读次数:
280
import urllib.request import urllib.parse import json proxy_support = urllib.request.ProxyHandler({'http':'http://10.3.246.5:8500'}) opener = urllib.r... ...
分类:
编程语言 时间:
2018-08-01 16:00:26
阅读次数:
199
# -*- coding: utf-8 -*- def loadPage() """ 请求Queryparser页面结果 """ url = "" key = urllib.urlopen(question) # 构造url url = url + key + "" headers = {} req... ...
分类:
其他好文 时间:
2018-08-01 11:57:08
阅读次数:
160
爬虫学习--下载图片 1.主要用到了urllib和re库 2.利用urllib.urlopen()函数获得页面源代码 3.利用正则匹配图片类型,当然正则越准确,下载的越多 4.利用urllib.urlretrieve()下载图片,并且可以重新命名,利用%S 5.应该是运营商有所限制,所以未能下载全部... ...
分类:
编程语言 时间:
2018-07-29 11:55:07
阅读次数:
149