第一步:requests get请求 post请求 第二步:伪装浏览器和伪造cookie 第三步:使用代理ip ...
分类:
其他好文 时间:
2018-05-15 19:41:26
阅读次数:
160
#coding=utf-8 import requests import re import time from bs4 import BeautifulSoup def spider(): for i in range(100,151): start = i * 20 url = 'http://... ...
分类:
编程语言 时间:
2018-05-14 00:10:07
阅读次数:
469
1、What is Scrapy? 答:Scrapy是一个使用python语言(基于Twistec框架)编写的开源网络爬虫框架,其结构清晰、模块之间的耦合程度低,具有较强的扩张性,能满足各种需求。(前面我们介绍了使用requests、beautifulsoup、selenium等相当于你写作文题,主 ...
分类:
系统相关 时间:
2018-05-12 16:15:24
阅读次数:
215
基于Requests和BeautifulSoup实现“自动登录”实例 自动登录抽屉新热榜 #!/usr/bin/env python # -*- coding:utf-8 -*- import requests # ############## 方式一 ############## """ # ## ...
分类:
其他好文 时间:
2018-05-11 23:30:13
阅读次数:
159
BeautifulSoup插件的使用 这个插件需要先使用pip安装(在上一篇中不再赘言),然后再程序中申明引用 这里find方法只会查找第一个匹配的元素,所以返回的是一个对象,find_all方法会查找所有匹配的元素,所以返回的是list 在使用网页文本的时候用text,在下载多媒体文件的时候用co ...
分类:
编程语言 时间:
2018-05-11 20:25:46
阅读次数:
169
爬虫的步骤:将要爬取的目标用户想读的图书的首页的url存储在元组中。通过urllib.request方法构造一个发送请求,在通过urllib.urlopen方法发出请求并取得响应(response)。通过response.read得到页面html,然后在通过beautifulsoup将html解析成 ...
分类:
其他好文 时间:
2018-05-10 17:32:26
阅读次数:
171
xpath基本知识 XPath语法:使用路径表达式来选取XML或HTML文档中的节点或节点集 路径表达式 nodename:表示选取此节点的所有子节点 / : 表示从根节点选取 // :选择任意位置的某个节点。 . :选取当前节点 .. :选取当前节点的父节点 @ :选取属性 谓语实例 实现效果 路 ...
分类:
编程语言 时间:
2018-05-08 19:40:46
阅读次数:
218
1.简单描述 webbrowser、requests、BeautifulSoup 和 selenium 模块之间的不同 webbrowser模块有一个 open() 方法,它启动 web 浏览器,打开指定的 URL,就 这样。 Requests 模块可以从网上下载文件和页面。 BeautifulSo ...
分类:
编程语言 时间:
2018-05-06 18:49:26
阅读次数:
160
爬取目标 1.本次代码是在python2上运行通过的,python3的最需改2行代码,用到其它python模块 selenium 2.53.6 +firefox 44 BeautifulSoup requests 2.爬取目标网站,我的博客:https://home.cnblogs.com/u/yo ...
分类:
编程语言 时间:
2018-05-06 16:31:32
阅读次数:
209
1、把页面放入到BeautifulSoup容器当中 2、获取页元素 3、筛选元素的具体信息 ...
分类:
其他好文 时间:
2018-05-06 12:16:28
阅读次数:
159