码迷,mamicode.com
首页 >  
搜索关键字:文本处理    ( 1321个结果
正则表达式简介与常用表示
1、正则表达式是用来进行文本处理的技术,是与语言无关的一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式 2、元字符 整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$ 只能输入数字:"^[0-9]*$"。 只能输入n位的数字:"^\d{n}$"。 只能输入至少n位的数字:"^\d{n,}$"。 只能输入m~n位的数字:。"^\d...
分类:其他好文   时间:2015-01-07 16:50:12    阅读次数:156
正则表达式简介与常用表达
1、正则表达式是用来进行文本处理的技术,是与语言无关的 一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式   2、元字符 整数或者小数:^[0-9]+\.{0,1}[0-9]{0,2}$ 只能输入数字:"^[0-9]*$"。 只能输入n位的数字:"^\d{n}$"。 只能输入至少n位的数字:"^\d{n,}$"。 只能输入m~n位...
分类:其他好文   时间:2015-01-07 11:05:29    阅读次数:254
几个Python字符串方法浅析
字符串提供了一系列的方法去实现复杂的文本处理任务。方法就是与特定的对象关联在一起的函数。方法调用同时进行了两次操作: 第一次:属性读取——具有object.attribute格式的表达式可以理解为“读取object对象的属性attribute的值”; 第二次:函数调用表达式——具有函数(参数)格式的表达式意味着“调用函数代码,传递零或者更多用逗号隔开的参数对象,最后返回函数的返回值”。 方法...
分类:编程语言   时间:2015-01-05 18:53:42    阅读次数:238
《Linux Shell脚本攻略》 笔记 第四章:高效文本处理
《Linux Shell脚本攻略》 笔记 第四章:高效文本处理 1、IP地址的正则表达式: [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3} 2、grep用法 //在多级目录中对文本进行递归检索 [root@localhost program_test]# grep "yang" ./ -Rn ./test.txt:6:laoyang...
分类:系统相关   时间:2015-01-03 17:22:52    阅读次数:323
字符串删除问题
在计算机的世界了里,字符串问题可以说是一个很重要的问题,比如文本处理等等问题。今天Mayuyu就来讲述一个字符串删除问题,问题描述如下   问题:给定一个很长的字符串,比如长度为1000000,现在要删除这个字符串中某些指定的字符,这些指定的字符只      有几个,现在Mayuyu要求是尽量用最少的时间和空间来做这件事。     分析:很明显,可以从前往后扫描,遇到一个指定的字符就删...
分类:其他好文   时间:2015-01-01 14:49:01    阅读次数:186
Linux文本处理工具之awk
调用方式         1.命令行             awk [-F  field-separator]  'commands'  input-file(s)                 commands是真正awk命令,[-F域分隔符]是可选的。input-file(s) 是待处理的文件。在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符...
分类:系统相关   时间:2014-12-29 12:06:45    阅读次数:149
Linux文本处理工具之sed
概念:         sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓存区中,称为"模式空间(pattern space)",接着用舍得命令处理缓冲区中的内容,处理完成后,把缓存区的内容输出。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你是用重定向存储输出。sed主要用来编辑一个活多个文件。     格式:         sed [-...
分类:系统相关   时间:2014-12-26 11:10:40    阅读次数:222
一个电影的时间掌握Awk(Linux)文本处理脚本语言
可以查看我用CmdMarkDown写的在线版,会比下面看起来舒服:在线分享版 Awk Awk、sed与grep,俗称Linux下的三剑客,它们之前有很多相似点,但是同样也各有各的特色,相似的地方是它们都可以匹配文本,其中sed和awk还可以用于文本编辑,而grep则不具备这个功用。sed是一种非交互式且面向字符流的编辑器(a “non-interactive” stre...
分类:编程语言   时间:2014-12-25 20:32:15    阅读次数:179
由Double类型数据到数据的格式化包java.text
Java Foundational 包学习:java.text文本处理包 这些类能够格式化日期、数字和消息、解析、搜索和排序字符串,以及迭代字符、单词、语句和换行符。此包包含类和接口的三大主要组: 用于迭代文本的类 用于格式化和分析的类 用于整理字符串的类
分类:编程语言   时间:2014-12-23 19:00:17    阅读次数:192
【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别
1.问题的描述 用Python进行文本处理时,有时候处理的文本中包含中文、英文、日文等多个语系的文本,有时候不能同时进行处理,这个时候就需要判别当前文本是属于哪个语系的。Python中有个langid工具包提供了此功能,langid目前支持97种语言的检测,非常好用。 2.程序的代码 以下Python是调用langid工具包来对文本进行语言检测与判别的程序代码: import langid...
分类:编程语言   时间:2014-12-22 19:39:49    阅读次数:150
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!