1. 打开google浏览器,输入www.toutiao.com, 搜索街拍。 2.打开开发者选项,network监看加载的xhr, 数据是ajax异步加载的,可以看到preview里面的data数据 3.下拉刷新查看加载的offset,每次加载20条数据,data是json数据,里面的articl ...
分类:
编程语言 时间:
2017-10-07 14:27:11
阅读次数:
326
requests库的七个主要方法 1. requests.requests(method, url, **kwargs) 构造一个请求,支撑以下各方法的基础方法 method:请求方式,对应get/put/post等七中方法; url:拟获取页面的url链接; **kwargs:控制访问的参数,共1 ...
分类:
编程语言 时间:
2017-10-06 23:53:34
阅读次数:
383
1、处理登录表单 处理登录表单可以分为2步: 第一、查看网站登录的表单,构建POST请求的参数字典; 第二、提交POST请求。 打开知乎登录界面,https://www.zhihu.com/#signin, 按f12,打开开发者界面: 在这里面找到headers信息, 现在在用户名和密码处查找信息, ...
分类:
编程语言 时间:
2017-10-06 21:56:23
阅读次数:
2489
首先我们来了解下python中的进程,线程以及协程! 从计算机硬件角度: 计算机的核心是CPU,承担了所有的计算任务。一个CPU,在一个时间切片里只能运行一个程序。 从操作系统的角度: 进程和线程,都是一种CPU的执行单元。 进程:表示一个程序的上下文执行活动(打开、执行、保存...) 线程:进程执 ...
分类:
编程语言 时间:
2017-10-06 21:23:02
阅读次数:
436
from http://obmem.info/?p=476 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强 ...
分类:
编程语言 时间:
2017-10-06 21:21:17
阅读次数:
232
《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Pytho ...
分类:
编程语言 时间:
2017-10-06 21:20:28
阅读次数:
221
1.代码如下: doubanmoive.py items.py 2.在管道文件中更改储存位置 3.新建中间件 middlewares.py 进行反反爬虫 4.setting的设置 ...
分类:
数据库 时间:
2017-10-06 19:38:38
阅读次数:
339
目标任务:将之前新浪网的Scrapy爬虫项目,修改为基于RedisSpider类的scrapy-redis分布式爬虫项目,将数据存入redis数据库。 一、item文件,和之前项目一样不需要改变 二、spiders爬虫文件,使用RedisSpider类替换之前的Spider类,其余地方做些许改动即可 ...
分类:
编程语言 时间:
2017-10-06 16:25:29
阅读次数:
218
目标任务:使用Scrapy框架爬取新浪网导航页所有大类、小类、小类里的子链接、以及子链接页面的新闻内容,最后保存到本地。 大类小类如下图所示: 点击国内这个小类,进入页面后效果如下图(部分截图): 查看页面元素,得到小类里的子链接如下图所示: 有子链接就可以发送请求来访问对应新闻的内容了。 首先创建 ...
分类:
编程语言 时间:
2017-10-06 15:54:06
阅读次数:
319
1、连接mysql 下载mysql,到官网下载。一路安装,设置好帐号密码。 下载mysql的编译环境,Navicat; 在Navicat创建数据库和表; python链接mysql, 安装库,pip install mysqlclient。 用pyrhon在mysql中创建的数据库leon中的url ...
分类:
数据库 时间:
2017-10-05 19:09:25
阅读次数:
192