7.1文本处理的用途总的来说,文本处理背后的全部思想是找到目标文本。当然,有的情况下数据以结构化的方式组织,这就是所谓的数据库。然而有些数据资源包含的信息完全不是有序和规整的,例如成百上千的文件的目录结构。当需要查找这种类型的数据或者以某种方式处理它们,文本处理就非常实用。也可以同RDBMS(关系数...
分类:
编程语言 时间:
2014-10-30 18:50:50
阅读次数:
226
1.入门1.1什么是正则表达式1.2正则表达式能干些什么1.3如何使用2.匹配2.1纯文本匹配2.2特殊字符匹配3.高级应用3.1回溯引用3.2条件分支4.几个正则表达式实例1.入门1.1什么是正则表达式简单的说正则表达式是一些用来匹配和处理文本的字符串。它有其特殊的语法和指令,但并不是完备的程序设...
分类:
其他好文 时间:
2014-10-26 19:42:00
阅读次数:
150
正则表达式提供了功能强大、灵活而又高效的方法来处理文本。正则表达式的全面模式匹配表示法使您可以快速分析大量文本以找到特定的字符模式;验证文本以确保它匹配预定义的模式(如电子邮件地址);提取、编辑、替换或删除文本子字符串;将提取的字符串添加到集合以生成报告。 对于处理字符串或分析大文本块的许多应用.....
分类:
其他好文 时间:
2014-10-23 19:07:45
阅读次数:
168
Unicode字符串字符串还有一个编码问题。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),0 - 255被用来表示大小写...
分类:
编程语言 时间:
2014-10-21 03:31:17
阅读次数:
266
数据类型计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值。但是,计算机能处理的远不止数值,还可以处理文本、图形、音频、视频、网页等各种各样的数据,不同的数据,需要定义不同的数据类型。在Python中,能够直接处理的数据类型有以下几种:1:整数Python可以处理任意...
分类:
编程语言 时间:
2014-10-21 02:18:15
阅读次数:
163
1 gzip压缩 优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。 缺点:不支持s...
分类:
其他好文 时间:
2014-10-20 15:28:34
阅读次数:
265
从学习Python至今,发现很多时候是将Python作为一种工具。特别在文本处理方面,使用起来更是游刃有余。说到文本处理,那么正则表达式必然是一个绝好的工具,它能将一些繁杂的字符搜索或者替换以非常简洁的方式完成。我们在处理文本的时候,或是查询抓取,或是替换.一.查找如果你想自己实现这样的功能模块,输...
分类:
编程语言 时间:
2014-10-16 17:43:32
阅读次数:
279
经常处理文本以及经常需要写代码的人,都会有自己比较常用的编辑器,本人喜欢用Vim,理由就是Vim编辑器灵活,并且可以达到纯键盘操作,使用纯熟情况下,根本不需要鼠标操作,听起来是不是很酷的?不过别高兴太早,想达到那个境界必须的指令是需要学习+记忆+练习的。总结指令如下:
高级正则表达式
1./\s*\查找多由c语言中的函数
\零长度匹配,表示单词的开始
\@! 零...
分类:
其他好文 时间:
2014-10-08 18:04:16
阅读次数:
304
批处理for命令具体解释FOR这条命令基本上都被用来处理文本,但还有其它一些好用的功能!看看他的基本格式(这里我引用的是批处理中的格式,直接在命令行仅仅须要一个%号)FOR 參数 %%变量名 IN (相关文件或命令) DO 运行的命令參数:FOR有4个參数 /d /l /r /f 他们的作用我在以下...
分类:
其他好文 时间:
2014-10-07 18:13:24
阅读次数:
279
IO流用来处理设备间数据传输,java对数据的操作是通过流的方式,而这些操作流的对象被封装在IO包中。流可以分为字符流和字节流。字符流可以设置编码方式,这就使得处理文本更加方便。
IO常用基类
字节流抽象基类InputStream,OutputStream。字符流抽象基类Reader,Writer。...
分类:
编程语言 时间:
2014-10-04 18:32:37
阅读次数:
182