搜索关键字：爬虫入门，搜索到255个结果！码迷,mamicode.com！

爬虫入门系列（一）：快速理解HTTP协议

你浏览的每一个网页都是基于 HTTP 协议呈现的，HTTP 协议是互联网应用中，客户端（浏览器）与服务器之间进行数据通信的一种协议。协议中规定了客户端应该按照什么格式给服务器发送请求，同时也约定了服务端返回的响应结果应该是什么格式。 ...

分类：Web程序时间：2017-04-07 14:15:10 阅读次数：224

Python爬虫入门遇到的坑

1. 环境 - Python mac os预装的python - IDE Pycharm - 辅助安装pip - Python库 2. 问题 - 问题1 代码： soup = BeautifulSoup(html, 'lxml') 报错： Traceback (most recent call l ...

分类：编程语言时间：2017-04-04 17:38:53 阅读次数：342

Python爬虫进阶一之爬虫框架概述

综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入 ...

分类：编程语言时间：2017-02-08 23:04:17 阅读次数：228

Python爬虫入门七之正则表达式

在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规 ...

分类：编程语言时间：2017-02-08 21:53:24 阅读次数：319

Python爬虫入门六之Cookie的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取 ...

分类：编程语言时间：2017-02-08 21:51:42 阅读次数：238

爬虫框架概述

综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本的爬虫任务，也就是所谓的解决温饱问题，然后再深入 ...

分类：其他好文时间：2017-01-04 11:54:14 阅读次数：234

Python爬虫入门之正则表达式

在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规 ...

分类：编程语言时间：2017-01-03 16:48:03 阅读次数：253

Python爬虫入门之Cookie的使用

本节我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库 ...

分类：编程语言时间：2016-12-30 18:56:46 阅读次数：252

Python爬虫入门之Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现 ...

分类：编程语言时间：2016-12-30 16:34:33 阅读次数：153

Python爬虫入门五之URLError异常处理

大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个 ...

分类：编程语言时间：2016-12-29 19:52:30 阅读次数：227