闲来无事学习一下Python,在看到关于Python字符类型的时候有提到字符集,字符集的问题我一直没搞明白,ASCII、Unicode、UTF-8之间有什么区别呢?借着这个机会总算是有了一点点的明白,记录下来,学习一下。
谈到字符集的人,肯定是跟计算机打交道的人,由于计算机只能处理数字,没有人类这么超高的智慧,如果计算机需要处理文本,那就必须把文本转换成数字。那么问题来了:如何实现把文本转换...
分类:
其他好文 时间:
2014-12-13 18:06:45
阅读次数:
177
一.sphinx简介Sphinx简单来说,是一个文档生成工具。用于把reStructuredText 格式的源文件生成诸如HTML, PDF, LaTex一类的格式。编辑者无须亲自处理文本的格式, 程序会自动根据源文件里的设置产生格式, 以及自动生成章节链接等工作。Sphinx 是用 Python ...
分类:
其他好文 时间:
2014-12-10 10:30:54
阅读次数:
402
字符编码
我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。
因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的...
分类:
其他好文 时间:
2014-12-09 17:46:57
阅读次数:
200
最近在处理文本字符串时,没一行数据都是按照逗号分割的,每个字段值一般情况是带有双引号的,但是有的字段值里面还包含逗号,甚至有的字段就没有双引号,这个分割起来就有点麻烦了 下面说一下我解决方法,如果谁有更好的方法,欢迎加入讨论O(∩_∩)O~/** * Java字符串逗号分割解析方法 ...
分类:
编程语言 时间:
2014-12-01 15:42:22
阅读次数:
117
一:起因
(1)之前处理文本数据时,各种清洗数据用的都是java的File,FileReader/FileWriter,BufferedReader/BufferedWriter等类,详见java读写文件
(2)应用java的原因是java里面的map非常灵活,eclipse编译器更是给力,而且ctrl 可以追踪函数 等,详见java map的排序
(3)应用java的另一个原因是java里...
分类:
编程语言 时间:
2014-11-30 12:35:47
阅读次数:
265
系统处理文本的方式【新知识点】.NET Framework.NET Framework的定义:其包含了一个公共语言运行时(Common Language Runtime),和一个类库其中有几个概念:CLI公共语言基础结构(Common Language Interface):CLI定义了可执行代码和...
文件编码也称为字符编码,用于指定在处理文本时如何表示字符。一种编码可能优于另一种编码主要取决于它能处理或不能处理哪些语言字符,不过通常首选的是 Unicode。读取或写入文件时,未正确匹配文件编码的情况可能会导致发生异常或产生不正确的结果。...
分类:
其他好文 时间:
2014-11-21 18:54:12
阅读次数:
183
一:起因
(1)之前处理文本数据时,各种清洗数据用的都是java的File,FileReader/FileWriter,BufferedReader/BufferedWriter等类,详见java读写文本文件
(2)应用java的原因是java里面的map非常灵活,eclipse编译器更是给力,而且ctrl 可以追踪函数 等,详见java map的排序
(3)应用java的另一个原因是jav...
分类:
编程语言 时间:
2014-11-21 18:54:01
阅读次数:
309
1 awk 用途 报告生成工具,主要在处理文本方面特别强大,也是一个独立的程序语言,与grep sed 构成处理文本工具的三剑客。同gawk 都是 GNU组织开发的开源工具2 awk的工作原理,已每个记录进行每个域的分离,如 常常是以每一行作为一个记录,空白作为默认的与分隔符,然后以内置变量对每个域...
分类:
其他好文 时间:
2014-11-07 14:37:18
阅读次数:
268
浮现在脑海的很多Linux命令,其中一些不为人知,另一些则很常见,如下:xargs or parallel: 并行运行一些程序,命令有很多的选项sed and awk: 广为人知并且非常有用的处理文本文件的命令,比Python和Ruby还快m4: 简单的宏处理命令screen: 功能强大的终端复用和...
分类:
其他好文 时间:
2014-11-03 10:08:16
阅读次数:
172