AWK AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理发动机之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)的最大功能取决于一个人所拥...
分类:
其他好文 时间:
2015-03-02 18:58:08
阅读次数:
197
要想灵活的并按照需要处理文本,我们需要充分的学会并掌握三大文本处理工具,grep、sed(数据流编辑器)、awk(报告文本的生成器)下面介绍并学习sed命令的基本用法sed又名streamediter,是行编辑器(编辑器包括字处理器和文本编辑器),是文本编辑器,是操作纯Ascii码文本的,..
分类:
其他好文 时间:
2015-03-02 14:59:55
阅读次数:
184
3.1.1、linux系统文件都由数据和元数据组成,没有数据的特殊文件例如:设备文件。设备文件包含二类(字符设备和块设备)。字符设备也称为线性设备,块设备也称为随机设备。3.1.2、命令别名:aliasname=value。unalias取消别名。echo、cp-r递归复制文件和目录:举例cp-r/etc/[ml..
分类:
其他好文 时间:
2015-02-26 15:02:44
阅读次数:
189
awk是Unix系统中文本处理工具,叫AWK是因为其取了三位创始人Alfred Aho,Peter Weinberger, 和Brian Kernighan的Family Name的首字符。使用awk的方式有:1.命令行方式awk [-F field-separator] 'command...
分类:
系统相关 时间:
2015-02-24 16:15:54
阅读次数:
226
9.数据处理函数 文本处理:Upper 大写mysql> select uid,name,msg, Upper(name) as UpperName from pw_luck;+-----+-----------+------+-----------+| uid | name | msg...
分类:
数据库 时间:
2015-02-12 15:32:29
阅读次数:
154
Coursera-Getting and Cleaning Data-Week4Thursday, January 29, 2015补上第四周笔记,以及本次课程总结。第四周课程主要针对text进行处理。里面包括1.变量名的处理 2.正则表达式 3.日期处理(参见swirl lubridate包练习)...
分类:
编程语言 时间:
2015-02-10 23:08:40
阅读次数:
446
好文 markhttp://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-%E7%A7%91%E5%AD%A6%E8%AE%A1%E7%AE%97-%E6%9...
分类:
编程语言 时间:
2015-02-10 18:26:27
阅读次数:
161
在这之前,补充一下正则表达式的知识+匹配1个或多个*匹配0个或多个?匹配0个或1个{2,4}匹配2~4个{2,}匹配至少2个^行首$行末.匹配任意一个字符[^23]匹配除2和3以外的任意字符\转义匹配邮箱地址的表达式[a-zA-Z0-9_]+@[a-zA-Z0-9]+\.[a-zA-Z]{2,5}匹配IP地址的表达式[0-9]{1,3}\..
分类:
其他好文 时间:
2015-02-07 19:02:05
阅读次数:
137
转自:http://blog.csdn.net/liuxuejiang158blog/article/details/31360765?utm_source=tuicool 在文本处理中,TF-IDF可以说是一个简单粗暴的东西。它可以用作特征抽取,关键词筛选等。 以网页搜索“核能的应...
分类:
其他好文 时间:
2015-02-03 21:07:54
阅读次数:
2058
原文:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图...
分类:
编程语言 时间:
2015-02-03 10:43:59
阅读次数:
241