学习爬虫的目的是什么? 我目前的理解是爬虫是为了批量访问并获取数据,比如我希望分析各地房价的变化,那我就需要定期爬取房地产相关网站最新房价数据。 先看下面的代码 如果是小白,可能会有以下几个问题 1. url是什么? 2. requests.get(url)这一步发生了什么? 3. 返回<Respo ...
分类:
编程语言 时间:
2019-09-22 13:04:40
阅读次数:
91
定义: 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。 简介: 网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的 ...
分类:
编程语言 时间:
2019-09-20 18:31:21
阅读次数:
78
第四天: XPATH和LXML类库 为什么要学习XPATH和LXML类库: lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息 什么是XPATH: XPath (XML Path Language) 是一门在 HTML\XML ...
分类:
编程语言 时间:
2019-09-19 21:56:20
阅读次数:
94
第六天: 使用Beautiful Soup解析网页 通过requests库已经可以抓到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库,其最主要的功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中,也就是说在导入Beautifu ...
分类:
编程语言 时间:
2019-09-19 21:51:57
阅读次数:
124
第五天: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 这里推荐使用pip安 ...
分类:
编程语言 时间:
2019-09-19 21:07:12
阅读次数:
136
这里向大家分享一下python爬虫的一些应用,主要是用爬虫配合简单的GUI界面实现视频,音乐和小说的下载器。今天就先介绍如何实现一个动态视频下载器。 爬取电影天堂视频 首先介绍的是python爬取电影天堂网站的视频(包括电影,电视剧,综艺等),主要是用selenium动态网页技术加上简单的爬虫技术。 ...
分类:
编程语言 时间:
2019-09-16 09:49:55
阅读次数:
102
近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法。这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题。 因为这个事儿,勾起了我另一个念头,这不最近一直想把python爬虫方面的知识梳理梳理吗,干脆借机 ...
分类:
编程语言 时间:
2019-09-12 16:24:41
阅读次数:
107
1、列举常用模块 time模块、random模块、os模块、sys模块、re模块、requests模块 模块:简单来说就是一堆代码来实现某些功能,他们是已经写好的.py文件,只需要用import来调用即可。 分类:自定义模块、内置标准模块、开源模块 2、如何安装第三方模块 pip install 模 ...
分类:
其他好文 时间:
2019-09-11 18:04:53
阅读次数:
82
我想把我的 python 爬虫脚本设定为自动定时执行,我的设备是win10 操作系统,这将用到系统自带的计划任务功能。且我希望不管用户是否登录都要运行该定时任务,但在设置计划任务的属性时,遇到一个报错:**所指定的账户名称无效**。该报错是如何发生的,以及如何解决?记录如文。 ...
分类:
Windows程序 时间:
2019-09-11 13:22:10
阅读次数:
1400