一、下载一只猫 urlopen()中的url可以是string,也可以是request object,因此可以是: response.geturl()得到url地址 response.info()得到HTTPMessage对象,可以通过print()得到head信息 response.getcode ...
分类:
编程语言 时间:
2017-05-09 13:42:18
阅读次数:
239
次上面的代码只是爬虫的模拟数据发送的部分代码,即自定义模拟浏览器客户端的,设置请求头,没有用Cookies进行登陆保存设置 ...
一、urllib2简单获取html页面 简单的几行代码就能拿到html页面,接下来局势html的解析工作了。 想象很美好,实际操作就出问题了。baidu没有禁止机器人抓取可以正常抓取到页面,但是比如:https://b.ishadow.tech/是禁止机器人抓取的,简单模拟浏览器头部信息也不行。 然 ...
分类:
编程语言 时间:
2017-03-31 00:07:22
阅读次数:
465
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验。 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v=1.0; 下面我们开始爬取数据。 一.写一个基于nodejs的爬虫 1.引入所需模块 这里需要引入h ...
分类:
Web程序 时间:
2017-03-11 15:40:00
阅读次数:
1036
selenium本来是用来做自动测试,但是因为可以模拟浏览器操作,所以也可以用来做爬虫(尤其是一些比较变态登陆网站,又不会模拟登陆的),只是速度会比较慢。 转载请注明出处:http://www.cnblogs.com/SSSR/p/6390229.html 经验总结: 1、火狐浏览器在运行较长时间后 ...
分类:
其他好文 时间:
2017-02-12 19:58:12
阅读次数:
6869
PS: 1、爬取的内容里面还有链接没有处理干净,虽然别人给了个源码,但是自己看不懂!(还要加油!↖(^ω^)↗↖(^ω^)↗) 2、视频里面说要模拟浏览器登入,但是我这里没有模拟还是可以正常的爬取(我用的是Python3) ...
分类:
编程语言 时间:
2017-02-11 20:43:37
阅读次数:
215
Python利用requests.Session对象模拟浏览器登录cnblogs request.Session对行可以跨请求的保持cookie,非常方便的用于模拟登录。 cnblogs登录页面分析: 登录页面https://passport.cnblogs.com/user/signin 使用抓包 ...
分类:
编程语言 时间:
2017-02-06 17:10:50
阅读次数:
249
# -*- coding: utf-8 -*-"""Created on Mon Mar 7 10:53:40 2016 @author: root"""import urllib2import sslfrom selenium import webdriver sel=webdriver.Fire ...
分类:
编程语言 时间:
2017-01-16 13:57:15
阅读次数:
184
CURL可以模拟浏览器,因此它同样支持多种协议 FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP等协议都可以很好的支持,包括一些: HTTPS认证,HTTP POST方法,HTTP PUT方法,FTP上传,keyberos认证,HT ...
分类:
Web程序 时间:
2017-01-09 15:14:29
阅读次数:
241