1. 文本处理 sed编辑器根据sed命令处理数据流中的数据;在流编辑器将所有命令与一行数据匹配完后,它会读取下一行数据并重复以下过程: (1) 一次从输入中读取一行数据 (2) 根据所提供的编辑器命令匹配数据 (3) 按照命令修改流中的数据 (4) 将新的数据输出到STDOUT 格式: sed o ...
分类:
其他好文 时间:
2019-05-26 17:36:18
阅读次数:
121
grep:是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。grep命令选项 -m#匹配#次后停止 -v显示不被pattern匹配到的行 -i忽略字符大小写 -n显示匹配的行号 -c统计匹配的行数 -o仅显示匹配到的字符串 &ems
分类:
其他好文 时间:
2019-05-21 09:35:22
阅读次数:
146
之前我们已经介绍过grep,这里不再赘述,仅讲解sed和awk. ...
分类:
其他好文 时间:
2019-05-20 15:20:09
阅读次数:
135
awk 简介 基本语法 变量 格式化 操作符 进阶 简介 awk是一门编程语言,报告生成器,格式化文本输出 awk命名来自Aho, Weinberger, Kernighan三位大佬名字首字母缩写 awk多版本版本: awk、nawk、gawk,未作特别说明,一般指gawk,gawk是AWK的GNU ...
分类:
其他好文 时间:
2019-05-17 12:11:50
阅读次数:
153
文本处理三剑客之SED(流编辑器)sed的工作方式:在指定文件中,按行读取内容至模式空间,然后根据sed的scripts编辑改行内容,编辑完毕后输出至屏幕,再读取下一行进行处理。如果有该行内容未被处理完毕就有新的内容要进行编辑,则把该行内容移至保持空间中,,保持空间中的内容可以随时调回模式空间中。sed的使用使用格式:sed[options...]‘scipts‘file常用选项:
分类:
其他好文 时间:
2019-05-16 22:56:50
阅读次数:
176
sed是一种流编辑器,它是文本处理中非常中的工具,能够完美的配合正则表达式使用,功能不同凡响。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。 ...
分类:
系统相关 时间:
2019-05-10 11:15:04
阅读次数:
162
博客园的markdown用起来太心塞了,现在重新用其他编辑器把这篇博客整理了一下。 目前用word2vec算法训练词向量的工具主要有两种:gensim 和 tensorflow。gensim中已经封装好了word2vec这个包,用起来很方便,只要把文本处理成规范的输入格式,寥寥几行代码就能训练词向量 ...
分类:
其他好文 时间:
2019-05-09 13:57:30
阅读次数:
218
awk 是很实用的文本处理命令,print 到后带的是你要获取第几列,sed -n 是指定第几行。 ...
分类:
系统相关 时间:
2019-05-08 14:39:31
阅读次数:
419
平时工作经常会遇到一些简单的文本处理、比如求和,均值,最大值,最小值 例如: nginx 求某一个请求的avg_proc_time等等 awk求最大值 awk求最小值 awk求总和 awk求平均 shell只做参考,具体的使用你需要结合自己的场景 ...
分类:
其他好文 时间:
2019-05-06 17:24:14
阅读次数:
125
ask是一种文本处理工具,一个强大的文本分析工具格式:awk‘/pattern/{command}‘file1file2...#行匹配语句awk‘‘只能用单引号-F指定分隔符-f调用脚本-v定义变量‘‘引用代码块BEGIN在对每一行进行处理之前,初始化代码//匹配代码块,可以是字符串或正则表达式;多条命令使用分号分隔END对每一行进行处理之后再执行的代码块,主要是进
分类:
系统相关 时间:
2019-05-05 20:45:00
阅读次数:
180