码迷,mamicode.com
首页 >  
搜索关键字:处理文本    ( 769个结果
斯坦福大学自然语言处理第二课“文本处理基础(Basic Text Processing)”
文本处理基础1.正则表达式(Regular Expressions)正则表达式是重要的文本预处理工具。 以下截取了部分正则写法: 2.分词(Word tokenization) 我们在进行每一次文本处理时都要对文本进行统一标准化(text normalization)处理。文本规模 How many words? 我们引入变量Type和Token 分别代表词典中的元素(an...
分类:编程语言   时间:2015-08-26 20:14:22    阅读次数:196
处理文本,提取数据的脚本-主要就是用sed
处理文本,提取数据的脚本 1 #! /bin/sh 2 3 sed -i 's//\n/g' $1 | sed 's/)/\n/g' 4 5 sed -i 's/.&nbsp/\n/g' $1 # 用换行符替换 6 7 sed -i '-e /;/d' $1 # 删除带有分号的行 8 9 ...
分类:其他好文   时间:2015-08-15 18:12:48    阅读次数:139
《机器学习系统设计》之应用scikit-learn做文本分类(上)
前言:     本系列是在作者学习《机器学习系统设计》([美] WilliRichert)过程中的思考与实践,全书通过Python从数据处理,到特征工程,再到模型选择,把机器学习解决问题的过程一一呈现。书中设计的源代码和数据集已上传到我的资源:http://download.csdn.net/detail/solomon1558/8971649        第3章通过词袋模型+K均值聚类实现...
分类:其他好文   时间:2015-08-12 23:40:54    阅读次数:206
8.PHP 教程_PHP字符串
字符串变量用于存储并处理文本.PHP中的字符串变量字符串变量用于包含有字符的值.在创建字符串之后,我们就可以对它进行操作了.您可以直接在函数中使用字符串,或者把它存储在变量中.在下面的实例中,我们创建一个名为txt的字符串变量,并赋值为"Hello world!".然后我们输出txt变量的值:1 注...
分类:Web程序   时间:2015-08-11 20:50:00    阅读次数:141
Unicode字符串
计算机只能处理数字,要处理文本,就必须先把文本转化成数字处理。最早的计算机在设计时采用8bit为1个字节,所以,一个字节能表示的最大整数是255(11111111),0~255被用来表示一些英文字母、数字、符号,这就是ASCII编码。         要表示中文,一个字节肯定是不够的,至少需要两个字节,中国制定了GB2312编码,其他国家也制定了一些编码。         为了将这写编码统一起...
分类:其他好文   时间:2015-08-10 18:13:37    阅读次数:114
《python标准库》--string
作用:包含处理文本的常量和类。1、capwords():将一个字符串中所有单词的首字母大写。1 >>> import string2 >>> s = 'The quick brown fox jumped over the lazy dog.'3 >>> print s4 The quick bro...
分类:编程语言   时间:2015-08-09 12:18:25    阅读次数:530
浅析桌面端数据分析程序语言
桌面端数据分析程序语言,其重点是使用方便且计算能力强。考察某种语言是否适合进行桌面端数据分析,可以用六个指标来衡量:应用环境、文件处理、文本和字符串处理、结构化数据处理、模型预测算法、其他非重点指标。    一、应用环境   进行桌面数据分析的用户绝大多数都不是专业程序员,他们更习惯在windows下工作,他们缺乏专业程序员拥有的配置环境的技能,因此桌面端分析程序语言的应用环境应当...
分类:编程语言   时间:2015-08-07 09:37:44    阅读次数:183
简单的文本处理
文本处理命令 tr命令:用来删除一段围文本信息中的某些文字,或将其进行转换。使用方式:tr [option]...SET1 [SET2]。常用的选项有选项有-d:删除和set1匹配的字符,-s:去除set1指定的在输入文本中连续并重复的字符 $ echo 'hello world' | tr -.....
分类:其他好文   时间:2015-08-03 18:44:10    阅读次数:161
Linux Shell 文本处理工具集锦(转载)
内容目录:find 文件查找grep 文本搜索xargs 命令行参数转换sort 排序uniq 消除重复行用tr进行转换cut 按列切分文本paste 按列拼接文本wc 统计行和字符的工具sed 文本替换利器awk 数据流处理工具迭代文件中的行、单词和字符本文将介绍Linux下使用Shell处理文本...
分类:系统相关   时间:2015-08-01 17:06:57    阅读次数:264
Linux-sed命令详解
sed是平时运维工作中较为常用的命令之一,周末时间整理下之前的笔记,并记录下来。sed是一个行文本编辑器,对纯ASCII码文本按行处理。sed在处理文本的时候,逐行将内容读取到内存中做处理,并将处理结果输出。这段内存空间称为“模式空间”,因为sed并不一定每一行都处理,可以..
分类:系统相关   时间:2015-07-25 20:08:13    阅读次数:180
769条   上一页 1 ... 61 62 63 64 65 ... 77 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!