原文地址:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如s...
分类:
编程语言 时间:
2015-04-21 12:52:56
阅读次数:
279
正则表达式是非正常重要的知识点,他在许许多多的地方都有应用,既是重点,也是难点。使用正则表达式需要调用re模块re模块常用的方法:1、re.serach()re.search 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回,如果字符串没有匹配,则返回None。2、re.match()re....
分类:
编程语言 时间:
2015-04-05 11:56:17
阅读次数:
185
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:
编程语言 时间:
2015-04-04 23:49:43
阅读次数:
1019
python的正则表达式在http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html中讲解的比较详细。 本文需要补充以下几个问题: 1、python正则表达式中的贪婪与非贪婪: python正则表达式默认是贪婪的,也就...
分类:
编程语言 时间:
2015-03-30 23:18:22
阅读次数:
467
最近老师让学习Python与维基百科相关的知识,无聊之中用Python简单做了个爬取游讯网图库中的图片。主要分享的是如何爬取HTML的知识和Python如何下载图片;希望对大家有所帮助,同时发现该网站的图片都挺精美的,建议阅读原网下载图片。通过浏览游讯网发现它的图库URL为,其中全部图片为0_0_1到0_0_75,简单来说文章就两句话:如何分析源代码通过正则表达式提取指定URL;如何通过Python下载图片。...
分类:
编程语言 时间:
2015-03-20 18:42:34
阅读次数:
240
不知是因为自己太低端还是其他的什么原因,别人都说的正则表达式非常强大,可是我的意识中正则表达式有用,但总是觉得没有传说中的那么厉害。也有可能是自己没有真正的理解它吧。在python中再次偶遇,那就再来好好学习一番。
首先是通配符,点号(.)可以匹配除了换行符之外的任意一个字符,'.ython’可以匹配’python‘也可以匹配’jypthon‘。注意点号是匹配一个字符,不能使空更...
分类:
编程语言 时间:
2015-03-17 18:10:39
阅读次数:
159
python正则表达式-findall
#coding=utf-8
import re
'''
# 获取匹配的的内容
'''
p = re.compile(r'\d+')
print '找出所有的数字',p.findall('one1two2three3four4')
'''
# 获取匹配的的内容-比较复杂的例子
'''
unicodePage ='i am a boyi am...
分类:
编程语言 时间:
2015-02-23 22:30:29
阅读次数:
273
学Python这本书不错!
自己整理的Python基础教程上传到csdn上了,请有兴趣了解学习Python语言的csdn的网友们下载吧。
csdn下载地址 http://download.csdn.net/detail/u014036026/7188403
百度网盘地址 http://pan.baidu.com/s/1i37Vra1...
分类:
编程语言 时间:
2015-02-13 16:45:11
阅读次数:
155
使用compile加速compile( rule [,flag] )将正则规则编译成一个Pattern对象,以供接下来使用。第一个参数是规则式,第二个参数是规则选项。返回一个Pattern对象直接使用findall ( rule , target )的方式来匹配字符串,一次两次没什么,如果是多次使用...
分类:
编程语言 时间:
2015-02-10 00:20:57
阅读次数:
160
group()函数和groups()函数的区别。一般,m.group(N)第N组括号匹返回配的字符。而m.group() == m.group(0) == 所有匹配的字符,与括号无关,这个是API规定的。m.groups() 返回所有括号匹配的字符,以tuple格式。m.groups() == (m...
分类:
编程语言 时间:
2015-02-09 19:57:28
阅读次数:
165