码迷,mamicode.com
首页 >  
搜索关键字:文本处理    ( 1321个结果
随堂练习 文本处理三剑客 AWK(二)
动作 printf printf 可以实现格式化输出格式: printf “FORMAT”, item1, item2, ... 说明: 必须指定FORMAT 不会自动换行,需要显式给出换行控制符 \n FORMAT中需要分别为后面每个item指定格式符 格式符:与item一一对应 %c:显示字符的 ...
分类:其他好文   时间:2020-07-14 09:20:53    阅读次数:73
文本处理sed用法
文本处理器sed sed是一种流编辑器,一次处理一行,处理空间被称为模式空间,配合正则表达式与shell脚本使用广泛。 默认打印p选项 选项 -n 关闭默认打印 -i.bak 将原文件复制为.bak备份文件,并修改原文件 -r 配合扩展表达式 支持正则表达式,用/pattern/格式 地址界定 不给 ...
分类:其他好文   时间:2020-07-12 16:38:36    阅读次数:72
把文本中重复的行删除(只保留一条)
在进行文本处理的时候,会经常遇到要删除重复行的情况。有三种常见方法: 第一,用sort+uniq,注意,单纯uniq是不行的, sort -k2n file | uniq 这里我做了个简单的测试,当file中的重复行不再一起的时候,uniq将服务删除所有的重复行。经过排序后,所有相同的行都在相邻,因 ...
分类:其他好文   时间:2020-07-10 15:06:33    阅读次数:86
第二天学习进度--文本情感分类(一)
昨天学习了简单的文本处理,之后在课后的练习中实现了包括了对tf-idf的处理和基于朴素贝叶斯简单的文本分类 基于tf-idf的数据集在出现多个关键词的时候一般能够相对准确对文本进行分类,但是对于相对具有深层含义的内容,例如情感的积极,情感的消息这方面的分类来说,就显得有些乏力的。根据昨天构建的文本分 ...
分类:其他好文   时间:2020-07-09 10:48:09    阅读次数:72
文本处理与脚本的简单编写练习
1、统计出/etc/passwd文件中其默认shell为非/sbin/nologin的用户个数,并将用户都显示出来[root@centos7scripts]#grep-v‘/sbin/nologin$‘/etc/passwd|cut-d:-f1rootsyncshutdownhaltkyletest[root@centos7~]#awk-F:‘{if($NF!="/sbin/nologin"){p
分类:其他好文   时间:2020-07-06 00:42:07    阅读次数:89
正则表达式
# 正则表达式基础知识# # # # # # 使用正则表达式时,能用简单表达式,就不要用复杂的表达式。因为越复杂的正则表达式效率反而不高且易读性极差。# # # # 一.概述# # # 正则表达式,Regular# Expression,缩写为regex、regexp、RE等。 正则表达式是文本处理 ...
分类:其他好文   时间:2020-07-04 23:03:13    阅读次数:68
【Python】Pycharm Regex matches
目的:分享Pycharm中使用正则的分组匹配来进行批量替换的小技巧 一、PyCharm的搜索/替换快捷键: 查找:Ctrl+F 替换:Ctrl+R 查找是Find,替换是Replace。 二、正则表达式匹配 用途:文本处理 1.相同字符串匹配替换处理: 2.土办法匹配字符串替换处理: 3.正则匹配字 ...
分类:编程语言   时间:2020-07-03 17:24:04    阅读次数:76
文本处理工具
1、grep工具grep是行运滤工具;用于根据关键字进行过滤# grep [] '关键字' 文件名 -i::不区分大小写 -v:查找不包含指定内容的行,反向选择 -w:按单词搜索 -o:打印匹配关键字 -c:统计匹配的次数 -n:显示行号 -r:逐层遍历目录查找 -A:显示匹配行及及后面多少行 -B ...
分类:其他好文   时间:2020-07-01 00:12:55    阅读次数:97
C++正则表达式的初步使用
正则表达式(Regular Expressions),又被称为regex、regexp 或 RE,是一种十分简便、灵活的文本处理工具。它可以用来精确地找出某文本中匹配某种指定规则的内容。从C++11开始也将正则表达式纳入了新标准的一部分 。 本篇博客不涉及正则表达式语法的基本内容,如果你对正则表达式 ...
分类:编程语言   时间:2020-06-25 23:47:03    阅读次数:116
跑google-BERT的fine-tune阶段时内存不足
背景 毕业论文选择了文本处理的情感分析。交了论文的初稿后,导师看了觉得写得不错,希望我冲击一下优秀论文,给我推荐了bert算法让我再去跑一趟。本是第一次接触NLP的我又去看了这个前2年才由谷歌开发出来的算法,简直头皮发麻。在google开源代码的run_classifier.py里添加了自己的Pro ...
分类:其他好文   时间:2020-06-25 16:06:01    阅读次数:205
1321条   上一页 1 2 3 4 5 6 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!