对于sort 可以输出 不重复的字段的用法sort -u 扩展 命令 sortx.sh#!/bin/bash/bin/sort -u $1 -o $1此命令扩展 的意图 去除指定的文件中重复的单字 并写回原文件这个命令对于基于文本处理并作模型构建的同学有方便之处 不必要自己写去重工具了
分类:
系统相关 时间:
2014-08-30 01:11:40
阅读次数:
346
一、#wc:printthenumberofnewlines,words,andbytesinfileswc[option][file]-l:统计行-c:统计字节数-w:统计单词数如:a、统计当前系统有多少用户:wc-l/etc/passwdb、统计/bin下的文件数:ls-l/bin|wc-lc、统计/etc目录下以P或者p开头的文件个数:ls-d/etc/[Pp]*|wc-l二、#tr..
分类:
其他好文 时间:
2014-08-29 11:12:08
阅读次数:
211
基本正则表达式和文本处理工具之grep、egrep和fgrepGrep(globalsearchregularexpressionandprintouttheline全局搜索正则表达式并把行打印出来),是一种强大的文本搜索工具,egrep和fgrep的命令跟grep只有很少的差别,linux使用的是GNU版本的grep,功能非常强大,可以通过-G,-..
分类:
其他好文 时间:
2014-08-28 02:08:59
阅读次数:
432
事情由起:svn的url在excel里,我复制到txt文本下,vi做些文本处理,只提取了url,保存为url.txt。再用vi处理url.txt,加上svn checkout等词,变成可以运行的svn.sh。每一行都是svn checkout .../proj_name/trunk proj_nam...
分类:
其他好文 时间:
2014-08-27 20:28:18
阅读次数:
212
简介:grep、sed、awk为三个主流的文本处理器,但是在处理上各有优缺点。这里我们只介绍awkAWK是一种优良的文本处理工具。它不仅是Linux中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人AlfredAho、PeterWeinberger和Bria..
分类:
其他好文 时间:
2014-08-25 02:21:14
阅读次数:
330
WordCo-occurrence一直不知道该怎么正确翻译,单词相似度?还是共生单词?还是单词的共生矩阵?这在统计里面是很常用的文本处理算法,用来度量一组文档集中所有出现频率最接近的词组.嗯,其实是上下文词组,不是单词.算是一个比较常用的算法,可以衍生出其他的统计算法.能用来做推荐,因..
分类:
其他好文 时间:
2014-08-24 19:31:03
阅读次数:
205
关于javascript代码文件的压缩在之前的文章中提到过(http://blog.csdn.net/u010487568/article/details/19701575),一般来说有三种方式:
仅压缩空白、注释等字符(最基本方法)压缩空白、注释并替换变量名压缩恐怖、注释、替换变量名,同时最小化文件所有的单词
最近在进一步学习shell,对这个古老的工具越发的感到高效便捷,因此对于这...
分类:
Web程序 时间:
2014-08-19 19:09:15
阅读次数:
210
less:一次显示不完是可以向上(n),向下翻页(N),并且可以查找:/keyword,v进入编辑器cat:一次显示完文本内容more:回车向下翻一行,空格向下翻一页,但是不能向上翻页nl:显示行号的输出head:显示文件的前10行head-n15a:显示文件a的前15行tail:显示文件的最后10行tail-n15a:显..
分类:
系统相关 时间:
2014-08-16 01:10:00
阅读次数:
237
1.正则表达式 ? (1)正则表达式一般用来描述文本模式的特殊用法,由普通字符(例如字符a-z)以及特殊字符(称为元字符,如/、*、?等)组成。 ? (2)基本元字符集及其含义 ? ? ? ^ :只匹配行首。 ? 如^a ...
分类:
系统相关 时间:
2014-08-13 15:27:16
阅读次数:
348
1.Sed简介sed是 一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(patternspace),接着用sed命令处 理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定...
分类:
其他好文 时间:
2014-08-12 18:47:54
阅读次数:
241