Python爬虫入门三之Urllib库的基本使用

时间：2017-08-17 10:25:04 阅读：129 评论：0 收藏：0 [点我收藏+]

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 1 2 3 4 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 是的你没看错，真正的程序就两行，把它保存成 demo.py，进入该文件的目录，执行如下命令查看运行结果，感受一下。 python demo.py 1 python demo.py 2015-02-13 00:09:09 的屏幕截图看，这个网页的源码已经被我们扒下来了，是不是很酸爽？ 2.分析扒网页的方法那么我们来分析这两行代码，第一行 response = urllib2.urlopen("http://www.baidu.com") 1 response = urllib2.urlopen("http://www.baidu.com") 首先我们调用的是urllib2库里面的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下： urlopen(url, data, timeout) 1 urlopen(url, data, timeout) 第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。 print response.read() 1 print response.read() response对象有一个read方法，可以返回获取到的网页内容。如果不加read直接打印会是什么？答案如下：

标签：默认调用 http协议答案协议设置 none 时间重要

原文地址：http://www.cnblogs.com/1011sh/p/7379643.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行