网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 一、urllib简介 python3中的urllib模块相对于Python2做了很大的改变,原来的urllib、urllib2、urlparse和robo ...
分类:
编程语言 时间:
2016-06-16 01:29:16
阅读次数:
581
参考资料: Python:http://www.runoob.com/python/python-intro.html Python爬虫系列教程:http://www.cnblogs.com/xin-xin/p/4297852.html 正则表达式:http://www.cnblogs.com/de ...
分类:
其他好文 时间:
2016-06-08 10:30:00
阅读次数:
160
参考资料: 本帖目标: 1.模拟登陆学校教务系统 2.对教务系统中的学生成绩进行抓取 3.将抓取到的内容保存到excel表格并计算平均成绩和绩点 ...
分类:
其他好文 时间:
2016-06-08 10:24:08
阅读次数:
297
pyspider:http://demo.pyspider.org/ CSS选择器:http://www.w3school.com.cn/cssref/css_selectors.asp Beautiful Soup:http://beautifulsoup.readthedocs.io/zh_CN ...
分类:
其他好文 时间:
2016-06-08 10:22:35
阅读次数:
376
静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有 ...
分类:
编程语言 时间:
2016-06-04 23:31:41
阅读次数:
345
静觅 » Python爬虫入门四之Urllib库的高级用法 1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。 首先,打开我们的浏览器,调试浏览器F12,我用的是Chrom ...
分类:
编程语言 时间:
2016-06-01 15:34:36
阅读次数:
161
静觅 » Python爬虫入门二之爬虫基础了解 2.浏览网页的过程 在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请 ...
分类:
编程语言 时间:
2016-05-31 22:11:50
阅读次数:
137
转自: http://cuiqingcai.com/927.html 静觅 » Python爬虫入门一之综述 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 要学习Python爬虫,我 ...
分类:
编程语言 时间:
2016-05-31 22:09:32
阅读次数:
182
1.分分钟爬一个网页下来 怎么爬网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是他的衣服。所以最重要部分是 ...
分类:
编程语言 时间:
2016-05-24 20:56:41
阅读次数:
163
1.什么是爬虫 爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛,如果它遇到资源,那么它就会抓取下来。想抓取什么,就靠你自己去控制它。 比如它在抓取一个网页,在这个网中它发现了一条道路,其实就是指向网页的超链接,那么它就可以爬虫另一张网 ...
分类:
编程语言 时间:
2016-05-22 21:29:14
阅读次数:
173