码迷,mamicode.com
首页 >  
搜索关键字:文本处理    ( 1321个结果
awk文本处理--二维数组使用一例
群友出的题:原始文件:$ cat fileBJ30 26BJ30 24BJ30 63BJ30 70SH41 21SH41 30SH41 25SH41 25SH41 29SD15 34SD15 46SD15 20SD15 34TJ20 23TJ20 32TJ20 31TJ20 35处理后结果:BJ30...
分类:编程语言   时间:2015-06-10 00:59:47    阅读次数:190
linux入门基础——linux命令行文本处理工具
linux命令行文本处理工具 文件浏览 cat        查看文件内容 more    以翻页形式查看文件内容(只能向下翻页) less    以翻页形式查看文件内容(可上下翻页) head    查看文件的开始10行(或指定行数) tail    查看文件的结束10行(或指定行数) 基于关键字搜索 命令grep用以基于关键字搜索文本 -i        在搜索的时忽略大小写...
分类:系统相关   时间:2015-06-08 09:58:17    阅读次数:161
awk的基本使用--我的学习记录
Awk名称来源:Aho,Weinberger,Kernighan三个开发者名字首字母,但现在我们使用的版本已经不是原始的AWK了。而是GUN组织后来编写的开源的,所以全名应该是GAWK。基本用法:gawk[OPTIONS]‘program‘FILE1FILE2...program:PATTERN{ACTIONSTATEMENT}ACTION:print,printf选项:-F:..
分类:其他好文   时间:2015-06-05 00:53:49    阅读次数:175
Shell 常用文本处理命令
grep 如果要使用正则表达式需要加上参数  grep -E "[a-z]+"  #使用正则表达式 或者  egrep "[a-z]+" -A  -B  输出匹配到行前面或后面的几行  -C 则可以同时显示前后几行 -e  匹配多个样式,如 grep -e "cat" -e "dog" file  -i  忽略文本的大小写 -o  只输出文本中匹配到的文本 -c  统计匹配到的行...
分类:系统相关   时间:2015-06-03 21:33:49    阅读次数:276
Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器(Tokenizer)、词元过滤器(Token Filter)、 词干化(Stemming)
文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理。 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理。文本处理对搜索引擎的搜索结果有着重要的影响,特别是对如召回率的影响。 文本分析是将一个文本域的值转化为一个词序列。词是Lucene实际索....
分类:其他好文   时间:2015-06-02 13:03:24    阅读次数:3739
一步一步跟我学习lucene(15)---lucene搜索之正则表达式查询RegExQuery和手机邮箱查询示例
今天快下班的时候收到了一个群友的问题,大意是读取文本文件中的内容,找出文件中的手机号和邮箱,我自己写了一个读取文档的内容的正则查询示例,用于匹配文件中是否含有邮箱或者手机号,这个等于是对之前的文本处理工具的一个梳理,同时结合lucene内部提供的正则匹配查询RegexQuery; 废话不多说了,直接上代码,这里先对文件内容读取分类处理,分为pdf word excel 和普通文本四类,不同的种类...
分类:移动开发   时间:2015-05-28 02:03:36    阅读次数:473
awk文本处理知识汇总
参考资料:http://man.linuxde.net/awkhttp://www.cnblogs.com/chengmo/archive/2013/01/17/2865479.htmlhttp://bbs.chinaunix.net/thread-691456-1-1.html awk是一种编.....
分类:其他好文   时间:2015-05-28 00:34:39    阅读次数:320
sed文本处理知识点整理
参考资料:http://man.linuxde.net/sed 《鸟哥的私房菜》sed是一种流编辑器,它是文本处理中非常中的工具,能够完美的配合正则表达式使用。sed 后面接的操作,务必以 '' 两个单引号括住。sed是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,....
分类:其他好文   时间:2015-05-28 00:13:43    阅读次数:209
漫漫运维路——文本处理三剑客之awk基础
awk即gawk,是一款在Linux中实现文本格式化输出的文本处理工具,在Linux中与文本过滤工具grep和文本行编辑器sed共同组成Linux中的文本处理三剑客。awk在处理文本时以行为单位,读入整行数据后以指定的分隔符对行进行切片,然后再针对切片后的数据进行处理。如下图所示:文本经..
分类:其他好文   时间:2015-05-24 06:40:38    阅读次数:309
awk的应用
awk的应用awk是Linux文本处理三剑客之一,是一款强大的报告生成器,不同于sed和grep,它的侧重点是如何把文本信息更好的展示出来,常用与统计和格式化输出。awk相当于微型的shell,有着自己一套语法结构,例如:循环结构,数组,条件判断,函数,内置变量等功能。处理对象一般纯..
分类:其他好文   时间:2015-05-23 18:38:01    阅读次数:280
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!