码迷,mamicode.com
首页 >  
搜索关键字:爬虫    ( 10452个结果
python 爬虫抓取今日头条街拍图片
1. 打开google浏览器,输入www.toutiao.com, 搜索街拍。 2.打开开发者选项,network监看加载的xhr, 数据是ajax异步加载的,可以看到preview里面的data数据 3.下拉刷新查看加载的offset,每次加载20条数据,data是json数据,里面的articl ...
分类:编程语言   时间:2017-10-07 14:27:11    阅读次数:326
python爬虫requests模块
requests库的七个主要方法 1. requests.requests(method, url, **kwargs) 构造一个请求,支撑以下各方法的基础方法 method:请求方式,对应get/put/post等七中方法; url:拟获取页面的url链接; **kwargs:控制访问的参数,共1 ...
分类:编程语言   时间:2017-10-06 23:53:34    阅读次数:383
python爬虫--模拟登录知乎
1、处理登录表单 处理登录表单可以分为2步: 第一、查看网站登录的表单,构建POST请求的参数字典; 第二、提交POST请求。 打开知乎登录界面,https://www.zhihu.com/#signin, 按f12,打开开发者界面: 在这里面找到headers信息, 现在在用户名和密码处查找信息, ...
分类:编程语言   时间:2017-10-06 21:56:23    阅读次数:2489
python采用 多进程/多线程/协程 写爬虫以及性能对比,牛逼的分分钟就将一个网站爬下来!
首先我们来了解下python中的进程,线程以及协程! 从计算机硬件角度: 计算机的核心是CPU,承担了所有的计算任务。一个CPU,在一个时间切片里只能运行一个程序。 从操作系统的角度: 进程和线程,都是一种CPU的执行单元。 进程:表示一个程序的上下文执行活动(打开、执行、保存...) 线程:进程执 ...
分类:编程语言   时间:2017-10-06 21:23:02    阅读次数:436
【转帖】用python爬虫抓站的一些技巧总结
from http://obmem.info/?p=476 学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强 ...
分类:编程语言   时间:2017-10-06 21:21:17    阅读次数:232
转载 《Python爬虫学习系列教程》学习笔记
《Python爬虫学习系列教程》学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来,还记录了一些自己实际写的一些小爬虫,在这里跟大家一同分享,希望对Pytho ...
分类:编程语言   时间:2017-10-06 21:20:28    阅读次数:221
爬取豆瓣电影储存到数据库MONGDB中以及反反爬虫
1.代码如下: doubanmoive.py items.py 2.在管道文件中更改储存位置 3.新建中间件 middlewares.py 进行反反爬虫 4.setting的设置 ...
分类:数据库   时间:2017-10-06 19:38:38    阅读次数:339
Python爬虫scrapy-redis分布式实例(一)
目标任务:将之前新浪网的Scrapy爬虫项目,修改为基于RedisSpider类的scrapy-redis分布式爬虫项目,将数据存入redis数据库。 一、item文件,和之前项目一样不需要改变 二、spiders爬虫文件,使用RedisSpider类替换之前的Spider类,其余地方做些许改动即可 ...
分类:编程语言   时间:2017-10-06 16:25:29    阅读次数:218
Python爬虫框架Scrapy实例(二)
目标任务:使用Scrapy框架爬取新浪网导航页所有大类、小类、小类里的子链接、以及子链接页面的新闻内容,最后保存到本地。 大类小类如下图所示: 点击国内这个小类,进入页面后效果如下图(部分截图): 查看页面元素,得到小类里的子链接如下图所示: 有子链接就可以发送请求来访问对应新闻的内容了。 首先创建 ...
分类:编程语言   时间:2017-10-06 15:54:06    阅读次数:319
python爬虫--连接数据库1
1、连接mysql 下载mysql,到官网下载。一路安装,设置好帐号密码。 下载mysql的编译环境,Navicat; 在Navicat创建数据库和表; python链接mysql, 安装库,pip install mysqlclient。 用pyrhon在mysql中创建的数据库leon中的url ...
分类:数据库   时间:2017-10-05 19:09:25    阅读次数:192
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!