开始爬虫之旅。 认识爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,spider),是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。通俗的讲就是通过程序自动去获取web页面上自己想要的数据。 主要就是模拟浏览器打开网页,获取网页中我们想要的那部分数据。 简单的说一下浏览器打开网页的过程:在浏 ...
分类:
其他好文 时间:
2017-12-22 19:51:09
阅读次数:
110
import requestsimport reimport json# 模拟浏览器去下载mp3# url = 'http://zhangmenshiting.qianqian.com/data2/music/e93d963095b109ff47de85f1b41ffdd1/522883870/52 ...
分类:
其他好文 时间:
2017-12-17 20:47:16
阅读次数:
264
通过来源审查,访问错误,不支持直接访问: 更改头信息,重新定义 user-agent,模拟浏览器(Mozilla/5.0浏览器标识字段,页面信息不全,可以成功访问): 全代码: import requests url="https://www.amazon.cn/?tag=baidu250-23&h ...
分类:
其他好文 时间:
2017-12-10 21:22:00
阅读次数:
183
一,案例一 定义了一个list,该list的数据类型是NameValuePair(简单名称值对节点类型),这个代码多处用于Java像url发送Post请求。在发送post请求时用该list来存放参数。发送请求的大致过程如下: 二,案例二 三,总结 httpPost其实在服务端模拟浏览器向其它接口发送 ...
分类:
Web程序 时间:
2017-11-11 11:39:35
阅读次数:
230
一、介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等。来拿到网页渲染之后的结果,可支持多种浏览器。 二、安装 #安装:se ...
分类:
其他好文 时间:
2017-11-08 20:50:12
阅读次数:
248
一、爬虫的原理 用户获取网络数据的方式: 浏览器提交请求->下载网页代码->解析成页面。而网页代码中便包含了我们想要的数据 爬虫就是模拟浏览器发送请求,然后提取想要的数据,存放于数据库或文件中 二、request 1、请求方式 三、response 示例: ...
分类:
其他好文 时间:
2017-11-06 18:06:14
阅读次数:
144
1.掌握python的基本语法知识2.学会如何抓取HTML页面: HTTP请求的处理:urlib、urlib2及requests(reqests对urllib和urllib2进行了封装 ,功能相当于二者的和) 处理后的请求可以模拟浏览器发送的请求,获取浏览器的响应3.解析服务器响应的内容: re、xpath、BeautifulSoup4(bs4)、j..
分类:
编程语言 时间:
2017-11-02 11:23:05
阅读次数:
146
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现 ...
分类:
编程语言 时间:
2017-10-31 12:45:25
阅读次数:
324
在开发过程中常常遇到这样的需求,模拟浏览器访问某接口,并获取返回数据。我们比较常使用的方法是fsockopen与接口建立连接,然后发出指令,然后通过fgets接受返回值。但是我们发现,通过PHP模拟访问接口往往比浏览器访问同样的接口慢很多。这个问题困扰过我很久,今天终于找到原因了。我看网上很多朋友有 ...
分类:
Web程序 时间:
2017-10-26 23:10:03
阅读次数:
371
requests请求,就是用yhthon的requests模块模拟浏览器请求,返回html源码 模拟浏览器请求有两种,一种是不需要用户登录或者验证的请求,一种是需要用户登录或者验证的请求 一、不需要用户登录或者验证的请求 这种比较简单,直接利用requests模块发一个请求即可拿到html源码 得到 ...
分类:
Web程序 时间:
2017-10-20 18:40:43
阅读次数:
252