模块: 模块即是文件也可以叫库,说白一点比如我写一个小程序(一个网络爬虫),通过关键字import filename,就可用该模块内的所有方法、字段等,好像就是自己写的一样,所以比如我需要爬取某个网页,导入该模块(文件),我只需要提供url地址,自己写几行代码就能实现一个复杂程序。所以说,pytho ...
分类:
编程语言 时间:
2017-04-21 00:30:23
阅读次数:
197
jsoup爬取百度瀑布流图片 是的,Java也可以做网络爬虫,不仅可以爬静态网页的图片,也可以爬动态网页的图片,比如采用Ajax技术进行异步加载的百度瀑布流。 以前有写过用Java进行百度图片的抓取,但只能抓取到第一二页,本博文则对此问题进行了深入研究,提出了另外一种思路解决问题。我的思路是这样的: ...
分类:
编程语言 时间:
2017-04-20 15:19:27
阅读次数:
600
(以下是崔庆才的博客粘的) 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 根据我的经验,要学习Python爬虫,我们要学习的共有以下几点: Python基础知识 Python中url ...
分类:
编程语言 时间:
2017-04-17 14:07:38
阅读次数:
206
1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。 比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张 ...
分类:
编程语言 时间:
2017-04-17 14:06:22
阅读次数:
215
网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 爬虫主要应对的问题:1.http请求 2.解析html源码 3.应对反爬机制。 觉得爬虫挺有意思的,恰好看到知乎有人分享的一个爬虫小教程:https://zhuanlan.zhihu.com/p/20410446 立马学起! 主要 ...
分类:
编程语言 时间:
2017-04-16 21:42:47
阅读次数:
311
补充材料: Web相关: https://www.zhihu.com/question/22689579 爬虫: https://www.zhihu.com/question/20899988 http://www-rohan.sdsu.edu/~gawron/python_for_ss/cours ...
分类:
其他好文 时间:
2017-04-12 16:09:56
阅读次数:
203
网络爬虫,我们可以把它理解为在网络上面爬行的一只蜘蛛,互联网就比如一张大网,而爬虫就像一只蜘蛛在这上面爬来爬去, 遇到资源它就可以把它抓取下来。 在浏览器中输入一个网址,即打开一个网页后,我们可以看到这个页面上有好多文字、图片等,这个过程其实就是用户输入一个网址后,向服务器发出了一个请求,服务器经过 ...
分类:
编程语言 时间:
2017-04-08 13:28:46
阅读次数:
209
使用已登录的Cookie访问登录的网站在网络爬虫中经常使用 1.使用浏览器手动登录网站,点击你需要访问的页面,比如我想访问的资源地址是 http://27.24.159.151:8005/student/GradeQueryPersonal.aspx 访问之后,使用F12启动调试 可以看到访问该资源 ...
分类:
编程语言 时间:
2017-04-08 11:34:08
阅读次数:
1005
本课知识路线 Requests框架:自动爬取HTML页面与自动网络请求提交 robots.txt:网络爬虫排除标准 BeautifulSoup框架:解析HTML页面 Re框架:正则框架,提取页面关键信息 Scrapy框架:网络爬虫原理介绍,专业爬虫框架介绍 Requests库的七个主要方法 requ ...
分类:
其他好文 时间:
2017-04-06 14:47:32
阅读次数:
147
前言: 苦逼的我从某某城市换到另一个稍微大点的某某城市,面临的第一个问题就是买房,奋斗10多年,又回到起点,废话就不多说了,看看如何设计程序把某同城上的房价数据抓取过来。 方案:方案思路很简单,先把网页内容获取下来,通过一定规则对内容解析,保存成想要的格式 难点是对网页的解析,是一个比较细致的活,必... ...
分类:
编程语言 时间:
2017-04-05 22:19:42
阅读次数:
524