短语统计 我们在处理文本的时候只需将提取出来的文本数据进行特殊的分割处理,比如只需将英文的“,”,“.”,“?”,“!"以及回车符设为分隔符。并将一些无用单词作为间断比如 "a", "it", "the", "and", "this"等。 package analyse_word; import j ...
分类:
其他好文 时间:
2019-06-16 13:26:11
阅读次数:
103
1.文本处理三剑客 在 Shell 下使用这些正则表达式处理文本最多的命令有下面几个工具: 命令 描述 grep 默认不支持扩展表达式,加-E 选项开启 ERE。如果不加-E 使用花括号要加转义符\{\} egrep 支持基础和扩展表达式 awk 支持 egrep 所有的正则表达式 sed 默认不支 ...
分类:
其他好文 时间:
2019-06-15 15:43:56
阅读次数:
109
JAVA-基础(字符流) 1.什么是字符流? 当使用字节流读取文本文件时,可能会有一个小问题。就是遇到中文字符时,可能不会显示完整的字符,那是因为一个中文字符可能占用多个字节存储。所以Java提供一些字符流类,以字符为单位读写数据,专门用于处理文本文件。 java.io.Reader抽象类是表示用于 ...
分类:
编程语言 时间:
2019-06-15 11:46:32
阅读次数:
103
head标签 meta标签的组成:meta标签共有两个属性,它们分别是http-equiv属性和name 属性,不同的属性又有不同的参数值,这些不同的参数值就实现了不同的网页功能。 1: name属性主要用于描述网页,与之对应的属性值为content,content中的内容主要是便于搜索引擎机器人查... ...
分类:
Web程序 时间:
2019-06-10 09:25:42
阅读次数:
121
shell脚本与变量 shell脚本的用途:自动化常用命令执行系统管理和故障排除创建简单的应用程序处理文本或文件 shell脚本编写格式:第一行:shebang机制用#加shell类型开头后续可直接跟命令,用命令达到需要的效果即可如需内容注释行首加#即可例如:#/bin/bash#testcat/etc/passwd shell脚本执行方法:bash/绝对
分类:
系统相关 时间:
2019-06-06 00:01:40
阅读次数:
143
字符串变量用于存储并处理文本。 PHP 中的字符串变量 字符串变量用于包含有字符的值。 在创建字符串之后,我们就可以对它进行操作了。您可以直接在函数中使用字符串,或者把它存储在变量中。 在下面的实例中,我们创建一个名为 txt 的字符串变量,并赋值为 "Hello world!" 。然后我们输出 t ...
分类:
Web程序 时间:
2019-06-04 14:49:11
阅读次数:
122
对于从事自然语言处理、文本分析的专业人士来说,建议参考学习《自然语言处理综论第2版》。对于第一版做了全面的改写,增加了大量反映自然语言处理最新成就的内容,特别是增加了语音处理和统计技术方面的内容。《自然语言处理综论第2版》覆盖全面,强调实用,注重评测,语料为本。 《自然语言处理综论第二版》在第一版的 ...
分类:
编程语言 时间:
2019-05-31 01:23:57
阅读次数:
2617
正则表达式 正则表达式定义了字符串的模式。 正则表达式可以用来搜索、编辑或处理文本。 正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别。 正则表达式 描述 this is text 匹配字符串 "this is text" this\s+is\s+text 注意字符串中的 \s+。 匹配 ...
分类:
其他好文 时间:
2019-05-18 09:31:28
阅读次数:
108
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。在处理庞大文件时不会出现内存溢出或是处理缓慢的问题,通常用来格式化文本信息。是个报告工具。、语法:awk‘/pattern/{command}’file1file2..print(输出打印)printf(格式化输出)%c:字符%s:字符串%d:整数%f:小数%10s:宽度10位%-10s:左对齐Record:记录每一行Field:域NR:行
分类:
其他好文 时间:
2019-05-05 20:38:39
阅读次数:
135
awk、grep、sed是linux操作文本的三大利器,合称文本三剑客,也是必须掌握的linux命令之一。三者的功能都是处理文本,但侧重点各不相同,其中属awk功能最强大,但也最复杂。grep更适合单纯的查找或匹配文本,sed更适合编辑匹配到的文本,awk更适合格式化文本,对文本进行较复杂格式处理。 ...
分类:
系统相关 时间:
2019-05-05 13:15:23
阅读次数:
185