目前问题: 1.爬虫爬到十七条数据后,就不进行了,处于等待状态,咱不知道问题所在 2.采用selenium爬虫,由于涉及到页面加载,十分缓慢,个人倾向于ajax技术。#from bs4 import BeautifulSoup import re, csv, urllib.request, urll... ...
分类:
其他好文 时间:
2019-04-09 09:29:04
阅读次数:
199
[TOC] 02. 爬取get请求的页面数据 一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urll ...
分类:
其他好文 时间:
2019-04-07 22:02:23
阅读次数:
196
from urllib import request def load_data(): url = "http://www.baidu.com/" # 发送get的http请求 # respense: http相应的对象 response = request.urlopen(url) # 读取内容 ...
分类:
Web程序 时间:
2019-04-07 12:34:51
阅读次数:
209
import urllib.request import urllib.parse import string def get_params(): url = "http://www.baidu.com/s?" params = { "wd":"中文", "key":"zhang", "value" ...
分类:
其他好文 时间:
2019-03-25 00:49:06
阅读次数:
182
import urllib.request def load_data(): url = "http://www.baidu.com/" #get的请求 #http请求 #response:http相应的对象 response = urllib.request.urlopen(url) print( ...
分类:
Web程序 时间:
2019-03-24 23:25:45
阅读次数:
182
浅谈 Python 多线程、进程、协程上手体验 前言:浅谈 Python 很多人都认为 Python 的多线程是垃圾(GIL 说这锅甩不掉啊~);本章节主要给你体验下 Python 的两个库 Threading Multiprocessing Gevent 一.线程 Threading Thread ...
分类:
编程语言 时间:
2019-03-20 19:05:25
阅读次数:
201
2k小说网爬取最近大火的《东宫》小说,借鉴之前看过的一段代码,修改之后,进行简单爬取。 from urllib import requestfrom bs4 import BeautifulSoupurl='https://www.fpzw.com/xiaoshuo/19/19210/'req=re ...
分类:
编程语言 时间:
2019-03-18 01:19:35
阅读次数:
197
一、urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) 简介:urllib.request.urlopen()函数用于实现对目标ur ...
分类:
Web程序 时间:
2019-03-16 12:39:13
阅读次数:
220
如下图,有些网站需要使用用户名密码才可以登录,我们可以使用 HTTPBasicAuthHandler() 来实现 ...
分类:
Web程序 时间:
2019-03-14 16:50:01
阅读次数:
169
(1) 如果我们一直用同一个IP去请求同一个网站上的网页,久了之后可能会被该网站服务器屏蔽,因此我们可以使用代理IP来发起请求,代理实际上指的就是代理服务器(2) 当我们使用代理IP发起请求时,服务器端显示的是代理IP的地址,即使被屏蔽了,我们可以换一个代理IP继续爬取,代理IP获取页面:https ...
分类:
Web程序 时间:
2019-03-14 16:47:16
阅读次数:
243