开始爬虫之旅 引言 我经常会看到有人在知乎上提问如何入门 Python 爬虫?、Python 爬虫进阶?、利用爬虫技术能做到哪些很酷很有趣很有用的事情?等这一些问题,我写这一系列的文章的目的就是把我的经验告诉大家。 什么是爬虫? 引用自维基百科 网络蜘蛛(Web spider)也叫网络爬虫(Web ...
分类:
编程语言 时间:
2019-09-22 14:42:25
阅读次数:
135
学习爬虫的目的是什么? 我目前的理解是爬虫是为了批量访问并获取数据,比如我希望分析各地房价的变化,那我就需要定期爬取房地产相关网站最新房价数据。 先看下面的代码 如果是小白,可能会有以下几个问题 1. url是什么? 2. requests.get(url)这一步发生了什么? 3. 返回<Respo ...
分类:
编程语言 时间:
2019-09-22 13:04:40
阅读次数:
91
定义: 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。 简介: 网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的 ...
分类:
编程语言 时间:
2019-09-20 18:31:21
阅读次数:
78
第四天: XPATH和LXML类库 为什么要学习XPATH和LXML类库: lxml是一款高性能的 Python HTML/XML 解析器,我们可以利用XPath,来快速的定位特定元素以及获取节点信息 什么是XPATH: XPath (XML Path Language) 是一门在 HTML\XML ...
分类:
编程语言 时间:
2019-09-19 21:56:20
阅读次数:
94
第六天: 使用Beautiful Soup解析网页 通过requests库已经可以抓到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库,其最主要的功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中,也就是说在导入Beautifu ...
分类:
编程语言 时间:
2019-09-19 21:51:57
阅读次数:
124
第五天: Selenium Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。 这里推荐使用pip安 ...
分类:
编程语言 时间:
2019-09-19 21:07:12
阅读次数:
136
什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu、Google、Yahoo等)“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 简单来讲就是尽可能的;把互联网上 ...
分类:
其他好文 时间:
2019-09-18 14:30:04
阅读次数:
126
从 android 2.3 之后已经限制无法在主线程中使用网络抓取数据 会出现 NetworkOnMainThreadException 从 android 2.3 之后已经限制无法在主线程中使用网络抓取数据 会出现NetworkOnMainThread... ...
分类:
移动开发 时间:
2019-09-16 13:34:41
阅读次数:
103
这里向大家分享一下python爬虫的一些应用,主要是用爬虫配合简单的GUI界面实现视频,音乐和小说的下载器。今天就先介绍如何实现一个动态视频下载器。 爬取电影天堂视频 首先介绍的是python爬取电影天堂网站的视频(包括电影,电视剧,综艺等),主要是用selenium动态网页技术加上简单的爬虫技术。 ...
分类:
编程语言 时间:
2019-09-16 09:49:55
阅读次数:
102