码迷,mamicode.com
首页 >  
搜索关键字:处理文本    ( 769个结果
word2vec
一.概述 word2vec用于处理文本字符串,类似的功能如sklearn的CountVectorizer,TfidfVectorizer,HashingVectorizer CountVectorizer用每个词出现的次数做为向量的值,如特征空间内宫n个词,特征向量i中如果第j个word出现了n次则 ...
分类:其他好文   时间:2020-02-14 10:43:23    阅读次数:73
第九课 Linux文本处理
文本处理基本指令 示例1(新建sort.txt文件) banana 12 apple 1 orange 8 键入如下指令 sort sort.txt sort -t' ' -k2 sort.txt sort -t' ' -k2 -n sort.txt sed指令 awk指令 awk 指令实例(新建a ...
分类:系统相关   时间:2020-02-10 00:18:37    阅读次数:95
Java IO字符流
字符流 当使用字节流读取文本文件时,可能会有一个小问题。就是遇到中文字符时,可能不会显示完整的字符,那是因为一个中文字符可能占用多个字节存储(如:"学生"两个字占用了四个字节)。所以Java提供一些字符流类,以字符为单位读写数据专门用于处理文本文件。 字符输入流 —— Reader java.io. ...
分类:编程语言   时间:2020-02-06 10:42:33    阅读次数:68
C# 正则表达式大全
文章导读 正则表达式的本质是使用一系列特殊字符模式,来表示某一类字符串。正则表达式无疑是处理文本最有力的工具,而.NET提供的Regex类实现了验证正则表达式的方法。Regex 类表示不可变(只读)的正则表达式。它还包含各种静态方法,允许在不显式创建其他类的实例的情况下使用其他正则表达式类。 基础梳 ...
分类:Windows程序   时间:2020-02-04 23:43:50    阅读次数:130
Unicode字符串
字符串还有一个编码问题。 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),0 - 255被用来表示大小写英文字母、数字和一 ...
分类:其他好文   时间:2020-02-04 23:32:43    阅读次数:68
pandas模块
pandas模块 pandas官方文档:https://pandas.pydata.org/pandas docs/stable/?v=20190307135750 pandas基于Numpy,可以看成是处理文本或者表格数据。pandas中有两个主要的数据结构,其中Series数据结构类似于Nump ...
分类:其他好文   时间:2020-02-01 10:25:10    阅读次数:65
awk用法记录
awk 简介 awk是一种编程语言,主要用于在linux/unix下对文本和数据进行处理,是linux/unix下的一个工具。数据可以来自标准输入、一个或多个文件,或其它命令的输出。 awk的处理文本和数据的方式:逐行扫描文件,默认从第一行到最后一行,寻找匹配的特定模式的行,并在这些行上进行你想要的 ...
分类:其他好文   时间:2020-01-27 23:46:21    阅读次数:62
Linux 命令之 linux 四剑客
Linux命令-- 四剑客 一:Linux命令 之 AWK 符号:^ 开头 $ 结尾 awk 是一种处理文本的语言,一个强大的文本分析命令! 1:提取文件中的每行的第二个 提取前文本中内容为 命令:cat 1.txt | awk '{print($2)}' 在 AWK 命令中,它将文本每列的部分当做 ...
分类:系统相关   时间:2020-01-26 00:51:10    阅读次数:118
Unicode编码和utf-8编码的区别
字符集:是一堆字符组成的集合,用来指定字节或者字符串映射成二进制的规则 (在计算机中存储的,无论是字节还是字符串都是以二进制模式存储的。) 1 Unicode编码的由来 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节( ...
分类:其他好文   时间:2020-01-17 11:41:23    阅读次数:60
awk - 提取包含某个关键字的段落
前提 AWK是一种处理文本文件的语言,是一个强大的文本分析工具。 本文将使用命令awk将具有某个关键字的段落提取出来。 准备数据 段落提取 假设我们需要的关键字为 nid=0x63ef ...
分类:其他好文   时间:2020-01-13 00:49:16    阅读次数:371
769条   上一页 1 ... 4 5 6 7 8 ... 77 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!