前言 这一章节主要讲解Xpath的基础语法,学习如何通过Xpath获取网页中我们想要的内容;为我们的后面学习Java网络爬虫基础准备工作。 备注:此章节为基础核心章节,未来会在网络爬虫的数据解析环节经常使用,学会Xpath解析语法,可为未来爬虫解析省去很多麻烦。 Xpath简介 XPath即为XML ...
分类:
其他好文 时间:
2018-05-19 14:50:26
阅读次数:
6197
1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张 ...
分类:
其他好文 时间:
2018-05-13 13:40:40
阅读次数:
138
学习爬虫有一小段时间了,于是决定把自己学爬虫时所学的,写过的代码以及看过的文档记录下来,权当小结。第一次写这些,如果有错误,请多指教。 首先我们需要了解一下什么是爬虫。 根据百度百科上给出的定义,” 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定 ...
分类:
编程语言 时间:
2018-05-12 17:26:20
阅读次数:
198
声明: 本系列文章原创于慕课网,作者秋名山车神,任何人不得以任何形式在不经作者允许的情况下,进行任何形式的印刷以及销售,转载需注明出处及此声明。 本系列文章更新至少每周一更,将涉及Python爬虫基础,Requests,Scrapy等主流爬虫技术。同时会介绍图片验证码,语音验证码的识别以及我自己设计 ...
分类:
编程语言 时间:
2018-05-10 11:36:08
阅读次数:
310
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( ...
分类:
其他好文 时间:
2018-04-03 12:50:34
阅读次数:
147
requests Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 License ...
分类:
其他好文 时间:
2018-04-01 10:40:52
阅读次数:
207
1.利用requests.get(url)获取网页页面的html文件 1 2 3 4 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对 ...
分类:
其他好文 时间:
2018-03-31 22:18:06
阅读次数:
143
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( ...
分类:
其他好文 时间:
2018-03-30 23:12:53
阅读次数:
191
1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(newsurl) #返回response对象 res.en ...
分类:
其他好文 时间:
2018-03-30 23:12:06
阅读次数:
229
0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 2.利用BeautifulSoup的HTML解析器,生成结构树 3.找出特定标签的html元素 soup.p #标签名,返回第一个 soup.head soup.p.nam ...
分类:
其他好文 时间:
2018-03-30 20:07:33
阅读次数:
157