码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫学习笔记1

时间:2015-05-30 23:57:40      阅读:181      评论:0      收藏:0      [点我收藏+]

标签:

加入实验室,要写爬虫,以前写过java的,新学python练练手

首先是发包程序,框架如下:

首先是POST方式,代码如下:

 1 import urllib
 2 import urllib2
 3 url=http://someserver.com/cgi-bin/register.cgi
 4 user_agent=Mozilla/4.0
 5 values={
 6     name:Liuyuqing,
 7     location:DUT,
 8     language:python
 9 }
10 headers={
11     cookie:name=LIUYUQING,
12     User-Agent:user_agent
13 }
14 data=urllib.urlencode(values)
15 req=urllib2.Request(url,data,headers)
16 response=urllib2.urlopen(req)
17 the_page=response.read()

如果Request时没有data参数,则发送的是GET方式

response.geturl()  #获得真正的url

response.info()     #获得返回报文头

还有一些自定义opener和handler的知识暂时用不到,先不学啦~下面开始正则表达~

===================华丽的分割线===========================

正则表达基本知识不表,直接说python上的应用:

import re
reg=re.compile(r<title>(.*)</title>)
list=re.findall(reg,text)
for i in list:
    print i
    pass

最基本的Helloworld就这么多,剩下的明天再说,睡觉了Zzz...

 

Python爬虫学习笔记1

标签:

原文地址:http://www.cnblogs.com/lyqatdl/p/4541291.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!