对于文本T,设T’是T的逆序文本,若T'与T相同,那么称T为回文。比如aba、abba都是回文。 回文树是用于组织和统计文本T中所有回文的数据结构,可以优雅地解决大量回文有关的问题。如同AC自动机,后缀自动机等处理文本的数据结构一样,回文树的建立也拥有着线性的时间复杂度,并且其建立过程是在线的。 下 ...
分类:
其他好文 时间:
2018-02-26 23:10:54
阅读次数:
165
文本数据预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。 1.文档切分 文档切分这个操作是可选的,取决于你获取到的文档集合的形式。如果你得到的文档集合本身就是一篇一篇文章分开的,那么这一步就可以省略了。反之,如果文档集合 ...
分类:
其他好文 时间:
2018-02-23 18:53:26
阅读次数:
1079
有如下文本,其中前5行内容为1111111:134432534562222222:132112221221111111:136435435443333333:123412431232222222:12123123123用shell脚本处理后,按下面格式输出:[1111111]1344325345613643543544[2222222]1321122212212123123123[3333333]
分类:
系统相关 时间:
2018-02-22 19:44:35
阅读次数:
174
编码和字符串 编码 在学习回顾中总结一下ASCII编码、Unicode编码和utf 8编码。 计算机中只能处理数字,我们若要处理文本的话就要将文件转换为数字。所以,这就涉及该怎样转换的问题,也就是编码问题。 在计算机中使用8个比特(bit)作为一个字节(byte),一个字节最大的表示范围是255(从 ...
分类:
编程语言 时间:
2018-02-15 17:15:59
阅读次数:
192
今天是腊月27,明天是腊月28,一到过年,就习惯说农历,而不说公历。这两天挺闲的,就再造一把。 话说Linux处理文本工具有三剑客,awk、grep、sed,其中awk最为厉害,grep也挺是常用。今天就来说一说awk,并结合mysql应用。 用法有很多种,但是语法总结可以写成这样,分两个部分:pa ...
分类:
数据库 时间:
2018-02-12 20:01:12
阅读次数:
264
字符编码 我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制1111111 ...
分类:
其他好文 时间:
2018-02-12 13:44:17
阅读次数:
220
Linux管道、重定向以及文本处理 "1 Linux多命令协作:管道及重定向" "管道和重定向" "2 Linux命令行文本处理工具" "文件浏览" "基于关键字搜索 grep" "基于列处理文本 cut" "文本统计 wc" "文本排序 sort" "删除重复行" "文本比较 diff" "检查拼 ...
分类:
系统相关 时间:
2018-02-11 14:25:29
阅读次数:
268
sed是一个文本流处理器,配合正则表达式用可以实现很多文本处理操作。
和grep一样,sed是一行一行的处理的。sed处理文本时,首先会将源文件复制一份到内存中,然后将文本一行一行拿到模式空间内进行操作,最后输出到标准输出,即屏幕上。
在模式空间中,每一行都会根据用户给的条件进行匹配,匹配到了进行编辑后输出,没有匹配到,直接输出到标准输出。sed除了模式空间还有一个保持空间,能够让行在模式空间和保持空间多次进行处理,进而完成复杂的处理工作。
分类:
其他好文 时间:
2018-02-04 21:02:26
阅读次数:
108
Git 简介: Git 是处理文本文件的版本管理系统。 Github获取Git的提交历史,并保存在互联网,以供远程(联网)访问。 工作过程: 1)创建本地分支,在本地分支编辑,修改,提交。 2)push到远程分支 3)申请merge到主分支,发布请求 Pull Request 4)审核merge 5 ...
分类:
其他好文 时间:
2018-02-02 18:37:31
阅读次数:
150
sed(streameditor)流编辑器也是linux中的一条命令,在shell中经常需要用到的非交互式修改文件内容的命令。sed处理文本是按行处理,也就是读一行处理一行。sed的命令基本格式是:sed选项‘编辑指令‘文件路径也可以通过管道(|)传输参数给sed处理前置命令|sed选项‘编辑指令‘sed的常用参数有:-n屏蔽默认输出;如果不加-n选项会全部输出文本
分类:
系统相关 时间:
2018-01-29 20:11:08
阅读次数:
204