一、正则表达式 二、深度和广度优先 三、爬虫去重策略 ...
分类:
其他好文 时间:
2018-03-03 18:15:39
阅读次数:
158
Python爬虫基础 1.获取网页文本 通过urllib2包,根据url获取网页的html文本内容并返回 或者 再添加ua和超时时间: 添加header属性: 添加随机ua ...
分类:
编程语言 时间:
2018-02-11 12:28:17
阅读次数:
196
前言 上一篇文章 python 爬虫入门案例 爬取某站上海租房图片 中有对headers的讲解,可能是对爬虫了解的不够深刻,所以老觉得这是一项特别简单的技术,也可能是简单所以网上对爬虫系统的文档,书和视频感觉都好少,故此准备接下这段时间对爬虫涉及到的点做个系统的学习与总结。 利用浏览器查看heade ...
分类:
编程语言 时间:
2018-02-11 10:51:13
阅读次数:
1309
一 爬虫的定义和主要的功能 定义:爬虫就是向网站发起请求,获取资源后分析并提取有用的数据。 爬虫主要做的是什么? 模拟浏览器发送请求 》下载网页源代码 》提取有用的数据 》存放在数据库或者文件中 二 爬虫的基本流程以及请求与响应 基本流程: 请求与响应 三request 四 response 总结 ...
分类:
其他好文 时间:
2018-01-15 22:29:13
阅读次数:
205
一、什么是爬虫 如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,沿着蜘蛛网抓取自己想要的猎物/数据 爬虫的基本定义 向网站发起请求,获取资源后分析并提取有用数据的程序 爬虫的基本流程 发送请求 获取响应内容 解析内容 保存数据 如下 请求与响 ...
分类:
其他好文 时间:
2018-01-11 17:32:13
阅读次数:
160
爬虫的分类 按使用场景: 1. 通用爬虫:指搜索引擎的爬虫 2. 聚焦爬虫:指针对特定网站的爬虫 聚焦爬虫又可以分为大致3种: 1. 累积式爬虫: 从开始到结束,一直不断爬取,过程中会进行去重操作; 2. 增量式爬虫: 对已经下载的网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫; 3. ...
分类:
其他好文 时间:
2018-01-03 11:45:06
阅读次数:
165
一、 为什么要做爬虫?首先:都说现在是"大数据时代",那数据从何而来?企业产生的用户数据:百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据:数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据:中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数据管理咨 ...
分类:
其他好文 时间:
2017-12-23 14:18:47
阅读次数:
191
Python的一个很广泛的功能就是爬虫。爬虫可以获取我们需要的资料,甚至进行DDos的工具。爬虫现在比较流行的是Scrapy之类的模块,但是在学习这些工具之前,先了解一下Urllib模块,知道他的基本工作原理。爬虫的基本思路:扫描获取对应的Url,扫描Url网页的内容,通过正则匹配获..
分类:
编程语言 时间:
2017-11-20 10:32:50
阅读次数:
186
request模块Requests:让HTTP服务人类虽然Python的标准库中urllib模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests自称"HTTPforHumans",说明使用更简洁方便。Requests唯一的一个非转基因的PythonHTTP库,人类可以安全享用:)Requests..
分类:
其他好文 时间:
2017-11-12 01:00:05
阅读次数:
130
一、爬虫的原理 用户获取网络数据的方式: 浏览器提交请求->下载网页代码->解析成页面。而网页代码中便包含了我们想要的数据 爬虫就是模拟浏览器发送请求,然后提取想要的数据,存放于数据库或文件中 二、request 1、请求方式 三、response 示例: ...
分类:
其他好文 时间:
2017-11-06 18:06:14
阅读次数:
144