一、基本思路 打开F12 尝试输入单词girl,会发现每敲一个字母后都有请求 请求地址是http://fanyi.baidu.com/sug 利用NetWork-All-Hearders,查看发现Fromdata的值是 kw:girl 检查返回内容格式,发现返回的是json格式的内容,所以需要用到j ...
分类:
编程语言 时间:
2020-07-07 13:42:20
阅读次数:
135
scrapy.Spider 这一节我们来聊一聊爬虫文件 1. 请求发送 # -*- coding: utf-8 -*- import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['baidu.c ...
分类:
其他好文 时间:
2020-07-06 22:45:57
阅读次数:
63
scrapy框架结构 1. 项目结构 1.1 认识文件 这里我们简单认识一下, 在一个scrapy爬虫项目中各个文件都是用来做什么的, 知道了这些文件是干嘛的, 那么我们来写我们的项目就会很得心应手了. 这次我们还以上次百度的那个项目为例 spider1 | |——spider1 | ├─spide ...
分类:
其他好文 时间:
2020-07-06 22:42:49
阅读次数:
61
scrapy是python的一个爬虫框架,从网上随意搜索便能得到千篇一律的使用demo(本文也是哟),并且非常容易理解。即便你没看过相关的demo,也一样可以食用本文。我的应用场景大多是列表页,文章页等。如果你的业务需要登录验证,图片验证等,请另寻他法,不要在本篇文章浪费你宝贵的时间。由于我的代码编 ...
分类:
其他好文 时间:
2020-07-06 18:16:18
阅读次数:
70
条件:1.第三方包github.com/tebeka/selenium,selenium自动化测试工具2.google驱动chromedriver.exe,要与本地浏览器的版本号对应,下载:http://npm.taobao.org/mirrors/chromedriver/流程:1.开启googl ...
分类:
其他好文 时间:
2020-07-06 17:53:43
阅读次数:
55
模拟登录 验证码的识别 线上的打码平台 超级鹰 url:https://www.chaojiying.com/about.html 使用流程: 注册:注册一个用户中心的账号 登录:用户中心的身份 创建一个软件ID: 899370 下载示例代码 云打码 动态变化的请求参数 动态变化请求参数的处理 一般 ...
分类:
其他好文 时间:
2020-07-06 16:01:12
阅读次数:
46
通过几天学习,对基础的静态网页、网页信息不是由js等动态显示的网页的爬虫编写有了较好的认识,用几个简单案例进行测试。 在编写过程中要注意几个问题:1、源网页robot.txt中对爬取规则的要求 2、对源网页信息的目标信息的分析 3、编程中注意模块化编写、代码复用和程序稳定性 案例1:全国大学排名 要 ...
分类:
编程语言 时间:
2020-07-06 00:57:26
阅读次数:
81
docker run -p 6800:6800 --name scrapy -e USERNAME=admin -e PASSWORD=admin cdrx/scrapyd-authenticated 命令中USERNAME=admin -e PASSWORD=admin 指定nginx服务的访问账 ...
分类:
其他好文 时间:
2020-07-05 19:16:38
阅读次数:
73
# 测试浏览器弹窗的验证: import requests from urllib import parse import logging logging.basicConfig(level=logging.INFO) class ScrapyManager(object): def __init_ ...
分类:
编程语言 时间:
2020-07-05 19:07:10
阅读次数:
71
如何实现分布式? 安装一个scrapy-redis的组件 原生的scrapy是不可以实现分布式爬虫,必须要让scrapy结合着scrapy-redis组件一起实现分布式 为什么原生的scrapy不可以实现分布式? 调度器不可以被分布式集群共享 管道不可以被分布式集群共享 scrapy-redis组件 ...
分类:
其他好文 时间:
2020-07-05 17:03:11
阅读次数:
62