读取网页的方法-爬虫学习

时间：2018-10-09 13:58:17 阅读：251 评论：0 收藏：0 [点我收藏+]

标签：nes span encoding readlines return utf-8 tps 学习 urllib

1、读取全部网页

1 #encoding:utf-8
2 
3 import urllib2
4 def download1(url):
5     return urllib2.urlopen(url).read() #读取全部网页
6 
7 url="http://www.baidu.com" #urlopen只能处理http 不能处理https
8 print download3(url)

2、读取每一行的数据，压入列表

1 #encoding:utf-8
2 
3 import urllib2
4 
5 def download2(url):
6     return urllib2.urlopen(url).readlines() #读取每一行的数据，压入列表
7 
8 url="http://www.baidu.com" #urlopen只能处理http 不能处理https
9 print download2(url)

3、网页抽象为文件

 1 #encoding:utf-8
 2 import urllib2
 3 
 4 def download3(url):
 5     response=urllib2.urlopen(url)#网页抽象为文件
 6     while True:
 7         line=response.readline()#读取每一行
 8         if not line:
 9             break
10         print line
11 
12 url="http://www.baidu.com" #urlopen只能处理http 不能处理https
13 print download3(url)

读取网页的方法-爬虫学习

标签：nes span encoding readlines return utf-8 tps 学习 urllib

原文地址：https://www.cnblogs.com/klmyoil/p/9759812.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行