一、前言 String.format作为文本处理工具,为我们提供强大而丰富的字符串格式化功能,为了不止步于简单调用String.format("Hello %s","John");,下面将笔记整理并记录下来。二、重载方法 ...
分类:
编程语言 时间:
2015-02-02 15:24:32
阅读次数:
234
Perl语言的最大特点,也是Perl作为CGI首选语言的最大特点,是它的模式匹配操作符。Perl语言的强大的文本处理能力正是通过其内嵌的对模式匹配的支持体现的。模式通过创建正则表达式实现。Perl的正则表达式与模式匹配的特点一是内嵌于语言之中,而不是通过库或函数来实现,因此使用更简便;二是比一般的正...
分类:
其他好文 时间:
2015-02-02 09:27:23
阅读次数:
270
曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使...
分类:
编程语言 时间:
2015-01-31 07:05:41
阅读次数:
327
chtml标签是WebEasy标签语言的开始和结束符,WebEasy在分析一个完整的html、xml或SVG文件时,只对到或到之间的标签进行解释执行,其他内容就当静态(html、xml)文本处理后直接输出到浏览器。这样就大大提高了服务器的响应速度,几乎可以达到直接访问静态页面的响应速度,而且不要求整个页面内容写得很规范和严密...
分类:
Web程序 时间:
2015-01-29 09:24:53
阅读次数:
186
文本处理工具之grep、egrep:grep:(globalsearchregularexpression(RE)andprintouttheline文本搜索工具,根据用户指定的文本模式对目标文件进行逐行搜索,显示能够被模式所匹配到的行格式:grep[options]‘PATTERN‘file,...正则表达式:是一类字符所书写出的模式(pattern)元字..
分类:
其他好文 时间:
2015-01-26 19:29:46
阅读次数:
182
关联容器和顺序容器的本质差别在于:关联容器通过键(key)存储和读取元素,而顺序容器则通过元素在容器中的位置顺序存储和访问元素。 一般来说,如果希望有效地存储不同值的集合,那么使用 set 容器比较合适,而 map 容器则更适用于需要存储(乃至修改)每个键所关联的值的情况。在做某种文本处理时,可.....
分类:
编程语言 时间:
2015-01-23 00:41:49
阅读次数:
306
正则表达式(Regular Expression)
正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE)。
正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
元字符
字符...
分类:
其他好文 时间:
2015-01-19 17:18:39
阅读次数:
214
中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点:基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合对于未登录词,采用了基于汉字成词能力的HMM模型,使用了...
分类:
编程语言 时间:
2015-01-17 15:11:28
阅读次数:
183
1.定义 正则表达式是用来进行文本处理的技术,是语言无关的,在几乎所有语言中都有实现。 一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。就像通配符“*.jpg”、...
分类:
其他好文 时间:
2015-01-15 12:27:24
阅读次数:
369
性能监控监控CPU、内存、磁盘top命令crontab让程序可以在半夜执行,在测试的时候省很多事。GDB 常用命令进程管理 查看进程或者关闭进程磁盘管理查看当前磁盘使用情况,查看当前目录所占大小,以及打包压缩与解压缩。文本处理find、grep、xargs、sort、uniq、tr、cut、past...
分类:
系统相关 时间:
2015-01-13 12:06:36
阅读次数:
158