一、参考资料 1.《Python网络数据采集》图灵工业出版社 2.《精通Python爬虫框架Scrapy》人民邮电出版社 3.[Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) 4.[Python ...
分类:
编程语言 时间:
2020-01-09 01:11:20
阅读次数:
98
POST请求练习 通过爬取课程成绩我发现所有的班级名也可以爬取,只是需要提交一个表单,它长这样 既然知道了表单的内容,那我们可以通过urllib.parse.urlencode()方法把它封装到data里面去,访问的时候直接一起丢过去就可以了 page=1#可以自己写 data={'param_va ...
分类:
其他好文 时间:
2020-01-08 10:34:45
阅读次数:
85
# -*- coding: utf-8 -*-'''获取12306城市名和城市代码的数据文件名: parse_station.py'''import requestsimport reimport json #关闭https证书验证警告requests.packages.urllib3.disabl ...
分类:
其他好文 时间:
2020-01-06 23:04:45
阅读次数:
198
问题:urllib.error.HTTPError: HTTP Error 418: 问题描述:当我使用Python的request爬取网页时返回了http状态码为418, 错误描述:经过网上查询得知,418的意思是被网站的反爬程序返回的,网上解释为,418 I'm a teapotThe HTTP ...
分类:
编程语言 时间:
2020-01-06 19:48:59
阅读次数:
312
from urllib.request import urlopenfrom http.client import HTTPResponseresponse = urlopen('http://www.baidu.com')# http.client.HTTPResponse对象print(type ...
分类:
Web程序 时间:
2020-01-05 22:16:21
阅读次数:
126
```python import os import requests from lxml import etree from urllib import request headers = { 'Accept': 'text/html,application/xhtml+xml,applicati... ...
分类:
其他好文 时间:
2020-01-04 14:20:21
阅读次数:
59
使用该库需先安装,能更方便的处理Cookies,登录验证,代理设置等。 urllib中urlopen()实际是以GET方法请求网页,requests中响应的方法为get(),另外还可用post(),put(),delete()等方式实现POET,PUT,DELETE等请求。 1 普通用法 1.1 G ...
分类:
编程语言 时间:
2020-01-04 10:48:36
阅读次数:
61
通过urllib.request爬取CSDN博客原创博客标题方法封装 正则表达式:pat = '<span class=".*">原创</span>(.*)</a>' import re import urllib.request def get_csdn(url, pat, page): titl ...
分类:
Web程序 时间:
2020-01-02 20:55:19
阅读次数:
91
import requests import webbrowser import matplotlib.pyplot as plot from urllib.request import urlopen with open('t1.txt','r')as f: x=f.read().split('\ ...
分类:
其他好文 时间:
2020-01-01 23:51:21
阅读次数:
81
一篇文章带你了解《python爬虫》 1. 什么是网络爬虫: 1. 通俗理解:爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并数据抓取下来,然后使用一定的规则提取有价值的数据。 2. 专业介绍:百度百科。 2. 进入主题: 2.1 python urllib: # urllib_01.py ...
分类:
编程语言 时间:
2020-01-01 20:28:31
阅读次数:
78