from urllib import request url = 'http://httpbin.org/ip' #使用代理 #1.使用ProxyHandler构建一个hander handler = request.ProxyHandler({ "HTTP":"182.35.84.11:9999" ...
分类:
编程语言 时间:
2020-03-22 16:11:07
阅读次数:
84
import requests from bs4 import BeautifulSoup as bs res = requests.get('http://politics.people.com.cn/GB/1024/index.html') content = res.content.decod ...
分类:
编程语言 时间:
2020-03-21 18:29:37
阅读次数:
75
Python爬取新笔趣阁小说,并保存到TXT文件中 我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后迎刃而解了。这个程序非常的简单,程序的大概就是先获取网页的源代码,然后在网页的源代码中提取每个章节的url,获 ...
分类:
编程语言 时间:
2020-03-20 10:56:07
阅读次数:
67
主要使用request库和beautifulSoup库爬取今日热榜的数据。 具体代码实现: 1 import requests 2 from bs4 import BeautifulSoup 3 import time 4 import pandas 5 import re 6 7 def get_ ...
分类:
编程语言 时间:
2020-03-19 13:50:59
阅读次数:
94
我们在写爬虫构建请求的时候,不可避免地要添加请求头( headers ),一般来说,我们只要添加 user-agent 就能满足绝大部分需求了 但这并不是绝对的,有些请求单单添加一个 user-agent 是不能获取到数据的,在不知道是缺少哪个请求头参数的情况下,我一般会先把所有参数全部添加上,然后 ...
分类:
编程语言 时间:
2020-03-19 12:04:04
阅读次数:
100
1、requests库 http协议中,最常用的就是GET方法: import requests response = requests.get('http://www.baidu.com') print(response.status_code) # 打印状态码 print(response.ur ...
分类:
编程语言 时间:
2020-03-16 12:40:00
阅读次数:
117
1、Github项目地址: 2、估计开发时间: PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟) Planning 计划 · Estimate · 估计这个任务需要多少时间 Development 开发 · Analysis · 需求 ...
分类:
其他好文 时间:
2020-03-16 10:01:12
阅读次数:
66
import json from time import sleep import requests url = "https://web-api.juejin.im/query" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Wi ...
分类:
编程语言 时间:
2020-03-14 15:03:48
阅读次数:
103
一、动态HTML 1.爬虫跟反爬虫 2.动态HTML连载 (1)JavaScript (2)jQuery (3)Ajax (4)DHTML (5)Python采集动态数据 从JavaScript代码入手采集?;Python第三方库运行JavaScript,直接采集你在浏览器中看到的页面 二、Sele ...
分类:
编程语言 时间:
2020-03-14 01:10:07
阅读次数:
74
from time import sleep import faker import requests from lxml import etree fake = faker.Faker() base_url = "http://angelimg.spbeen.com" def get_next_l ...
分类:
编程语言 时间:
2020-03-13 13:22:52
阅读次数:
75