码迷,mamicode.com
首页 >  
搜索关键字:文本处理    ( 1321个结果
整理grep实战文本搜索过滤技巧
一:grep的简介:文本搜索工具,根据用户指定的文本模式对目标文件进行逐行搜索,显示能够被模式所匹配到的行。配合正则表达式的使用可以实现强大的文本处理。下面一一说明正则的例子。二:文本处理工具分类常用的有:grep,egrep,fgrep。区别:grep:在没有参数的情况下,只..
分类:其他好文   时间:2015-04-19 19:42:09    阅读次数:121
python 读取文本
将文本转换到NumPy 数组中,做机器学习或其他任何任务,文本处理的技能必不可少。python 实现实现了很精简强大的文本处理功能:假设 文件 traindata.csv 中有数据 1000行,3列特征,第四列(最后一列)为类标签1. 基本方法:def file2matrix(): dataM...
分类:编程语言   时间:2015-04-16 11:44:33    阅读次数:162
sed 命令详解
作用:sed 是一种流编辑器,它是文本处理中非常重要的工具, 能够完美的配合正则表达式使用。处理时,把当前处理的行存储在临时缓冲区中, 称为“模式空间(pattern space)”,接着用sed 命令处理缓冲区中的内容, 处理完成后, 把缓冲区中的内容送往屏幕。 接着处理下一行,不断重复, 直到文...
分类:其他好文   时间:2015-04-15 18:50:20    阅读次数:105
awk精简教材
awk就不多介绍了,最优秀的文本处理工具之一一、内置变量表属性说明$0当前记录(作为单个变量)$1~$n当前记录的第n个字段,字段间由FS分隔FS输入字段分隔符 默认是空格NF当前记录中的字段个数,就是有多少列NR已经读出的记录数,就是行号,从1开始RS输入的记录他隔符默 认为换行符OFS输出字段分...
分类:其他好文   时间:2015-04-14 19:27:14    阅读次数:88
Linux命令行文本处理工具
-v排除操作 以:为分隔符 ,只显示文件的第一列例子: 管道例子: 文本统计: 不能删除是因为只能删除相邻的重复行 例子: 1,50表示1-50行。指定多个替换加-e ;或者放在sededit文件当中。...
分类:系统相关   时间:2015-04-13 16:48:26    阅读次数:164
perl: 基础知识
PERL: Practical Extractionand Report Language,实用报表提取语言。 借取了C、sed、awk、shell以及很多其他程序语言的特性,是linux和unix的梦幻脚本语言。主要用于文本处理,适用于小型应用程序和脚本。 perl是用多种方法解决问题。   perl是用c语言写的。   CPAN:ComprehensivePerl Archive...
分类:其他好文   时间:2015-04-13 09:36:07    阅读次数:149
python使用正则表达式编写网页小爬虫
""" 文本处理是当下计算机处理的主要任务,从文本中找到某些有用的信息, 挖掘出某些信息是现在计算机程序大部分所做的工作。而python这中轻量型、小巧的语言包含了很多处理的函数库, 这些库的跨平台性能很好,可移植性能很强。 在Python中re模块提供了很多高级文本模式匹配的功能,以及相应的搜索替换对应字符串的功能。 """ """ 正则表达式符号和特殊字符 re1|re...
分类:编程语言   时间:2015-04-09 23:52:08    阅读次数:316
sed 命令使用 (笔记)
linux三大文本处理工具grepsedawk之前有说过grep今天来看看sed命令简介sed(StreamEDitor)流编辑器,是非交互式的编辑器,它一次处理一行内容。而且此编辑器默认不会对原文件做修改,如果想要修改使用shell重定向保存结果。默认情况下,所有的输出行都会被打印在屏幕上。sed编辑..
分类:其他好文   时间:2015-04-08 16:46:18    阅读次数:143
Linux文本处理命令笔记汇总
目录管理:ls、cd、pwd、mkdir、rmdir/tree文件管理touch、stat、file、rm、mv、nano日期时间:date、clock、hwclock、ca查看文本:cat、tac、more、less、less、head、tailcat:连接并显示 -n -E分屏显示:more:向前翻less: head:查看前n行tail:查看后n行 n默认是10行 tail-..
分类:系统相关   时间:2015-04-07 20:15:35    阅读次数:187
Linux文本处理命令笔记汇总
目录管理:ls、cd、pwd、mkdir、rmdir/tree文件管理touch、stat、file、rm、mv、nano日期时间:date、clock、hwclock、ca查看文本:cat、tac、more、less、less、head、tailcat:连接并显示 -n -E分屏显示:more:向前翻less: head:查看前n行tail:查看后n行 n默认是10行 tail-..
分类:系统相关   时间:2015-04-07 20:15:14    阅读次数:156
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!