码迷,mamicode.com
首页 >  
搜索关键字:文本处理    ( 1321个结果
linux命令
1. linux 基本命令 1.1. ps -aux | grep process-name | grep -v grep ps -ef 1.2. shutdown、reboot、logout等命令1.3. file and directory相关命令 cp、mv、rm find、locate 查找 ...
分类:系统相关   时间:2018-07-21 15:07:38    阅读次数:239
机器学习中正则化项L1和L2的直观理解
正则化(Regularization) 稀疏模型与特征选择 上面提到L1正则化有助于生成一个稀疏权值矩阵,进而可以用于特征选择。为什么要生成一个稀疏矩阵? 稀疏矩阵指的是很多元素为0,只有少数元素是非零值的矩阵,即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多,例如文本处理时,如 ...
分类:其他好文   时间:2018-07-18 20:39:10    阅读次数:128
自然语言处理--TF-IDF(关键词提取)
TF-IDF算法 TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇 ...
分类:编程语言   时间:2018-07-18 20:28:20    阅读次数:1613
第十八章 文本处理流编辑器:sed命令
第十八章文本处理流编辑器:sed命令名词解释sed是一种流编辑器,它是文本处理常用到的工具,能够完美的配合正则表达式使用,功能不同凡响。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(patternspace),接着sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。sed主要用来自
分类:其他好文   时间:2018-07-18 11:55:29    阅读次数:158
第十九章 文本处理流编辑器:awk编程
第十九章文本处理流编辑器:awk编程名词解释awk是一种编程语言,用于linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件、或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大个编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如:数组、函数等,这是它和C语言的相同之处,灵活性是a
分类:其他好文   时间:2018-07-18 11:55:03    阅读次数:199
Python数据分析8-----网页文本处理
1、去除网页的标签,如<br/> 2、将标点符号等去掉,用正则表达式。 3、将文本中的单词小写化,并将data用空格分开 4、去掉停用词 5、将所有的词连接成一个句子 ...
分类:编程语言   时间:2018-07-17 21:46:08    阅读次数:233
Perl_实用报表提取语言
Perl 语法 - 基础 perl语言的核心是正则表达式,在文本处理上非常有优势,与python类似,但语法不同,perl的语法很灵活,用多了才会觉得好用。 常用知识点总结: perl语法类似于C语言(perl源于Unix),语句由逗号划分,代码层次使用花括号{}划分,但是不必声明变量类型; 标量变 ...
分类:编程语言   时间:2018-07-17 18:17:08    阅读次数:203
linux学习-awk工具
    awk是基于列的文本处理工具,它的工作方式是按行读取文本并视为一条记录,每条记录以字段分割成若干字段,然后输出个字段的值,事实上,awk是一种编程语言。awk认为文件都是结构化的,也就是说由单词和各种空白字符组成的,这里的‘空白字符’包括空格,Tab,以及连续的空格和tab等。每个非空白的部分叫做域,从做到右依次是第一个域,第二个域,等等。$1、$2
分类:系统相关   时间:2018-07-16 16:21:50    阅读次数:191
linux学习-文本处理工具sed
    sed(stream editor)是一种非交互的流编辑器,通过多种转换修改流经它的文本。但是,默认情况下,sed并不会改变原文件本身,而只是通过sed命令的文本进行修改,并将修改后的结果打印到标准输出中(也就是屏幕)。sed处理文本时是以行为单位的,每处理完一行就立即打印出来,然后再处理下一行,直至全文处理结束。准备如下文件Sed.txtthis&
分类:系统相关   时间:2018-07-16 12:26:24    阅读次数:228
自然语言处理之中文分词器-jieba分词器详解及python实战
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自然语言处理时,通常需要先进行分词。本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器,并使 ...
分类:编程语言   时间:2018-07-16 11:23:13    阅读次数:195
1321条   上一页 1 ... 34 35 36 37 38 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!