原文:http://blog.jobbole.com/74844/作为一个概念而言,正则表达式对于Python来说并不是独有的。但是,Python中的正则表达式在实际使用过程中还是有一些细小的差别。本文是一系列关于Python正则表达式文章的其中一部分。在这个系列的第一篇文章中,我们将重点讨论如何使...
分类:
编程语言 时间:
2015-05-31 18:06:19
阅读次数:
217
1.需求
按下回车键,显示一个段子,要求显示段子的作者、点赞数、评论数、顶等信息。
2.段子网站
地址:http://www.qiushibaike.com/hot/page/1,更换后面的数字可以获取不同页的段子,每页有10多条段子吧,因此爬虫从读取该网页并解析就好了。
3.实现方式
这里使用的Python库都是系统自带的,所以不需要安装额外的第三方库,...
分类:
编程语言 时间:
2015-05-24 08:52:32
阅读次数:
159
#正则表达式re模块中用findall查找到的是ascii码,所以当比对替换时也需要对应的ascii码才能匹配成功。以下#程序是查找文件夹下文件名中含有男、女的文件,并将男替换成1,将女替换成2的程序# -*- coding: utf-8 -*-
import fnmatch
import os
import codecs
import re
import sys
def iterfind...
分类:
编程语言 时间:
2015-05-20 22:22:00
阅读次数:
160
遇到一个python 正则表达式,(?u),没看懂什么意思,自己上网搜了搜,找到百度排名第一谷歌排名第二的那篇博客,看了里面的图片解释,依旧不懂,可是搜索(?u)根本搜不出来,之后点到python官方文档(https://docs.python.org/2/library/re.html),居然找到...
分类:
编程语言 时间:
2015-05-17 23:05:47
阅读次数:
200
这篇文章转载自:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html#!comments这里非常感谢作者无私的贡献自己的成果。请大家支持作者的原创,也鼓励自己以后能够写出更好的文章。1. 正则表达式基础1.1. 简单介绍正则表达式并不...
分类:
编程语言 时间:
2015-05-16 20:29:32
阅读次数:
127
requests是python的一个HTTP客户端库,和urllib、urllib2类似,但是urllib2的api比较复杂,比如像实现一个post或是get功能都得需要一大堆代码。
今天先简单介绍一下这个库,等我看过官方文档之后,在写一个全面一点的。
# -*- coding:utf8 -*-
import request
r = requests.get('http://www.zh...
分类:
编程语言 时间:
2015-05-09 16:37:08
阅读次数:
168
zz http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html1. 正则表达式基础1.1. 简单介绍正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str...
分类:
编程语言 时间:
2015-05-01 19:58:57
阅读次数:
179
模块函数re.compile(pattern [, flag])把正则表达式预编译成正则表达式对象(模式对象),供以后使用.#模式对象,有re.compile()返回
>>> pobj = re.compile('Hello,(.*)')
>>> pobj
re.match(pattern, string [,...
分类:
编程语言 时间:
2015-04-30 10:48:31
阅读次数:
231
第 0006 题:你有一个目录,放了你一个月的日记,都是 txt,为了避免分词的问题,假设内容都是英文,请统计出你认为每篇日记最重要的词。
思路:切换到目标目录,然后遍历该目录下的txt文件,用正则表达式匹配响应的单词和数字,然后让Counter计算单词的词频,并认为排除掉stop word后出现最多的词是最重要的词。
注:stopword就是类似 a/an/and/are/then 的这...
分类:
编程语言 时间:
2015-04-21 18:07:15
阅读次数:
149