1、正则表达式是用来进行文本处理的技术,是与语言无关的一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式
2、元字符
整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$
只能输入数字:"^[0-9]*$"。
只能输入n位的数字:"^\d{n}$"。
只能输入至少n位的数字:"^\d{n,}$"。
只能输入m~n位的数字:。"^\d...
分类:
其他好文 时间:
2015-01-07 16:50:12
阅读次数:
156
1、正则表达式是用来进行文本处理的技术,是与语言无关的
一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式
2、元字符
整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$
只能输入数字:"^[0-9]*$"。
只能输入n位的数字:"^\d{n}$"。
只能输入至少n位的数字:"^\d{n,}$"。
只能输入m~n位...
分类:
其他好文 时间:
2015-01-07 11:05:29
阅读次数:
254
字符串提供了一系列的方法去实现复杂的文本处理任务。方法就是与特定的对象关联在一起的函数。方法调用同时进行了两次操作:
第一次:属性读取——具有object.attribute格式的表达式可以理解为“读取object对象的属性attribute的值”;
第二次:函数调用表达式——具有函数(参数)格式的表达式意味着“调用函数代码,传递零或者更多用逗号隔开的参数对象,最后返回函数的返回值”。
方法...
分类:
编程语言 时间:
2015-01-05 18:53:42
阅读次数:
238
《Linux Shell脚本攻略》 笔记
第四章:高效文本处理
1、IP地址的正则表达式: [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}
2、grep用法
//在多级目录中对文本进行递归检索
[root@localhost program_test]# grep "yang" ./ -Rn
./test.txt:6:laoyang...
分类:
系统相关 时间:
2015-01-03 17:22:52
阅读次数:
323
在计算机的世界了里,字符串问题可以说是一个很重要的问题,比如文本处理等等问题。今天Mayuyu就来讲述一个字符串删除问题,问题描述如下
问题:给定一个很长的字符串,比如长度为1000000,现在要删除这个字符串中某些指定的字符,这些指定的字符只
有几个,现在Mayuyu要求是尽量用最少的时间和空间来做这件事。
分析:很明显,可以从前往后扫描,遇到一个指定的字符就删...
分类:
其他好文 时间:
2015-01-01 14:49:01
阅读次数:
186
调用方式
1.命令行
awk [-F field-separator] 'commands' input-file(s)
commands是真正awk命令,[-F域分隔符]是可选的。input-file(s) 是待处理的文件。在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符...
分类:
系统相关 时间:
2014-12-29 12:06:45
阅读次数:
149
概念:
sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓存区中,称为"模式空间(pattern space)",接着用舍得命令处理缓冲区中的内容,处理完成后,把缓存区的内容输出。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你是用重定向存储输出。sed主要用来编辑一个活多个文件。
格式:
sed [-...
分类:
系统相关 时间:
2014-12-26 11:10:40
阅读次数:
222
可以查看我用CmdMarkDown写的在线版,会比下面看起来舒服:在线分享版
Awk
Awk、sed与grep,俗称Linux下的三剑客,它们之前有很多相似点,但是同样也各有各的特色,相似的地方是它们都可以匹配文本,其中sed和awk还可以用于文本编辑,而grep则不具备这个功用。sed是一种非交互式且面向字符流的编辑器(a
“non-interactive” stre...
分类:
编程语言 时间:
2014-12-25 20:32:15
阅读次数:
179
Java Foundational 包学习:java.text文本处理包
这些类能够格式化日期、数字和消息、解析、搜索和排序字符串,以及迭代字符、单词、语句和换行符。此包包含类和接口的三大主要组:
用于迭代文本的类
用于格式化和分析的类
用于整理字符串的类
分类:
编程语言 时间:
2014-12-23 19:00:17
阅读次数:
192
1.问题的描述
用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。
2.程序的代码
以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码:
import langid...
分类:
编程语言 时间:
2014-12-22 19:39:49
阅读次数:
150