爬虫简介 爬虫:可以把互联网看做是一张大网,爬虫就好像是这张网里的蜘蛛,如果想得到这张网里的资源,就可以将其抓取下来。 简单来说就是请求网站并提取数据的自动化程序。 爬虫的基本流程: 发起请求:通过HTTP库向目标站点发送请求,即发送一个request,请求可以包含额外的headers等信息,等待服 ...
分类:
编程语言 时间:
2018-08-11 15:42:27
阅读次数:
201
知识预览 beautifulsoup的简单使用 beautifulsoup的遍历文档树 beautifulsoup的搜索文档树 beautifulsoup的css选择器 回到顶部 beautifulsoup的简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页 ...
分类:
其他好文 时间:
2018-08-07 15:15:27
阅读次数:
162
数据提取的概念和数据的分类 1. 什么是数据提取 简单的来说,数据提取就是从响应中获取我们想要的数据的过程 2. 爬虫中数据的分类 结构化数据:json,xml等 处理方式:直接转化为python类型 非结构化数据:HTML 处理方式:正则表达式、xpath 数据提取之json 1.为什么要复习js ...
分类:
其他好文 时间:
2018-08-01 22:14:07
阅读次数:
192
1. 什么是爬虫(重点掌握) 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做. 2.爬虫的分类 通用爬虫:通常指搜索引擎的爬虫 聚焦爬虫:针对特定网站的爬虫 3 ...
分类:
其他好文 时间:
2018-08-01 14:19:54
阅读次数:
153
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求 ...
分类:
编程语言 时间:
2018-07-21 14:53:08
阅读次数:
170
入门 python爬虫入门一之综述 python爬虫入门二之爬虫基础了解 python爬虫入门三之Urllib库的基本使用 python爬虫入门四之Urllib库的高级用法 python爬虫入门五之URLError异常处理 python爬虫入门六之Cookie的使用 python爬虫入门七之正则表达 ...
分类:
编程语言 时间:
2018-07-21 12:02:42
阅读次数:
136
一、HTTP协议的理解 URL和URI 在学习HTTP之前我们需要了解一下URL、URI(精确的说明某资源的位置以及如果去访问它) URL:Universal Resource Locator 统一资源定位符,描述了一台特定服务器上某资源的特定位置。 URI :Uniform Resource Id ...
分类:
Web程序 时间:
2018-07-16 21:10:09
阅读次数:
219
1概念: a层级 1 1 1 1 1 1 1 1 1 b深度和广度层级 11111111111 先处理第一层然后在爬下一层的就是广度优先,从第一排第一个到m这样就是深度优先 11111111111 m111111111 实现的方法: 队列:入 [1,2,3,4,5,6]出 1 会先出 广度优先 栈: ...
分类:
其他好文 时间:
2018-07-08 21:11:54
阅读次数:
159
学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结。第一次写这些,如果有错误,请多指教。 首先我们需要了解什么是爬虫。 根据百度百科上给出的定义,” 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规 ...
分类:
编程语言 时间:
2018-06-23 11:33:25
阅读次数:
208