码迷,mamicode.com
首页 >  
搜索关键字:处理文本    ( 769个结果
ASCII、Unicode和UTF-8编码的区别
[TOC] 什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两 ...
分类:其他好文   时间:2019-09-18 00:58:35    阅读次数:84
DAX 第九篇:文本函数
DAX中用于处理文本的函数,和其他语言很相似。 一,文本连接 文本连接也可以使用操作符 & 来实现,也可以使用函数CONCATENATE来实现: 把整个表中的所有行,使用分隔符拼接为一个字符串,返回值是一个字符串,不常用: 按照分隔符,对多个字符串进行连接,返回一个字符串: 例如,对DimDate表 ...
分类:其他好文   时间:2019-09-11 11:32:52    阅读次数:292
linux文本处理三剑客之 grep
文本处理无非是对文本内容做查看、修改等操作。Linux三剑客: grep、sed 和 awk 命令。 处理文本内容,用 Vim 编辑器不是很好吗?Vim 允许我们使用键盘、鼠标来对文本内容进行交互性地修改,但在某些场景中,我们可能需要实现对文本内容做自动化的处理,而不是手工处理。 很多时候,我们并不 ...
分类:系统相关   时间:2019-09-07 22:00:22    阅读次数:128
字符流与字节流
字符流 概述 只用来处理文本数据 数据最常见的表现形式是文件,字符流用来操作文件的子类一般是FileReader和FileWriter 字符流读写文件注意事项: 写入文件必须要用flush()刷新 用完流记得要关闭流 使用流对象要抛出IO异常 定义文件路径时,可以用"/"或者"\" 在创建一个文件时 ...
分类:其他好文   时间:2019-09-07 12:40:07    阅读次数:97
re模块
Python通过re模块提供对正则表达式的支持。使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。 1 # encoding: UTF-8 2 import ...
分类:其他好文   时间:2019-09-01 01:39:24    阅读次数:93
sed
Linux sed 命令是利用脚本来处理文本文件。 sed 可依照脚本的指令来处理、编辑文本文件。 Sed 主要用来自动编辑一个或多个文件、简化对文件的反复操作、编写转换程序等。 参数说明 -e<script>或--expression=<script> 以选项中指定的script来处理输入的文本文 ...
分类:其他好文   时间:2019-09-01 01:33:19    阅读次数:91
python实例:自动爬取豆瓣读书短评,分析短评内容
思路: 1、打开书本“更多”短评,复制链接 2、脚本分析链接,通过获取短评数,计算出页码数 3、通过页码数,循环爬取当页短评 4、短评写入到txt文本 5、读取txt文本,处理文本,输出出现频率最高的词组(前X) 通过分析得到其他结果可自由发散 用到的库: 整个脚本如下 执行结果 需要注意的是,如果 ...
分类:编程语言   时间:2019-08-31 21:26:18    阅读次数:117
pandas模块
pandas模块 pandas官方文档:https://pandas.pydata.org/pandas docs/stable/?v=20190307135750 pandas基于Numpy,可以看成是处理文本或者表格数据。pandas中有两个主要的数据结构,其中Series数据结构类似于Nump ...
分类:其他好文   时间:2019-08-24 11:26:35    阅读次数:92
awk教程
AWK是一种处理文本文件的语言,是一个强大的文本分析工具。 之所以叫AWK是因为其取了三位创始人 Alfred Aho,Peter Weinberger, 和 Brian Kernighan 的 Family Name 的首字符。 一、awk的基本用法 print是打印命令,$0表示当前行 上面使用 ...
分类:其他好文   时间:2019-08-20 01:01:29    阅读次数:156
深度学习文字识别
Blog:https://blog.csdn.net/implok/article/details/95041472 步骤: 文字识别是AI的一个重要应用场景,文字识别过程一般由图像输入、预处理、文本检测、文本识别、结果输出等环节组成。 分类:文字识别可根据待识别的文字特点采用不同的识别方法,一般分 ...
分类:其他好文   时间:2019-08-12 23:35:25    阅读次数:496
769条   上一页 1 ... 8 9 10 11 12 ... 77 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!