python 一个简单的爬虫（1）

时间：2016-01-18 20:42:49 阅读：186 评论：0 收藏：0 [点我收藏+]

标签：

1.一个简单的爬虫：爬取豆瓣的热门电影的信息

技能：获取网页源码，正则表达式，函数调用，全局变量的定义

 1 #! /usr/bin/env python
 2 # -*- coding=utf-8 -*-
 3 import requests
 4 import json
 5 import re
 6 import sys
 7 reload(sys)
 8 sys.setdefaultencoding("utf-8")
 9 classinfo = []
10 f = open(‘info.txt‘,‘w‘)
11 
12 num = 0
13 def write(htm):
14     titl = re.findall(‘data-tit(.*?)data-enough‘,htm.text,re.S)
15     for each in titl:
16         #print each
17         info = {}
18         #print each
19         info[‘title‘] = re.search(‘le="(.*?)"‘,each,re.S).group(1)
20         info[‘year‘] = re.search(‘data-release="(.*?)" data‘,each,re.S).group(1)
21         info[‘Rating‘]= re.findall(‘data-rate="(.*?)" data-star‘,each,re.S)[0]
22         info[‘time‘] = re.findall(‘data-duration="(.*?)" data-re‘,each,re.S)[0]
23         info[‘reg‘] = re.findall(‘data-region="(.*?)" data-dir‘,each,re.S)[0]
24         info[‘act‘] = re.findall(‘data-actors="(.*?)" data-in‘,each,re.S)[0]
25         global num #全局的定义
26         num = num + 1
27         f.writelines(‘%d\n‘ %num)
28         f.writelines(u‘电影名：‘+info[‘title‘] + ‘\n‘)
29         f.writelines(u‘主演：‘+info[‘act‘] + ‘\n‘)
30         f.writelines(u‘电影地区：‘ + info[‘reg‘]+‘\n‘)
31         f.writelines(u‘上映年份：‘ + info[‘year‘]+‘\n‘)
32         f.writelines(u‘电影时长：‘ + info[‘time‘]+‘\n‘)
33         f.writelines(u‘评分：‘ + info[‘Rating‘]+‘\n\n‘)
34 def getremen():
35     # html = requests.get(‘http://movie.douban.com/‘)
36     url = ‘http://movie.douban.com/‘
37     html = requests.get(url)
38     html.encoding = ‘utf-8‘
39     # print html.text
40     write(html)
41 if __name__ == "__main__":
42     getremen()

python 一个简单的爬虫（1）

标签：

原文地址：http://www.cnblogs.com/lovychen/p/5140238.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行