编码初识 常见编码集: 1. ascii: 不支持中文 一个字符占用 8 位 2. gbk(包含 ascii)国标码: 一个英文字符占用 8 位(1 字节) 一个中文字符占用 16 位(2 字节) 3. Unicode: 英文:4 个字节,32 位 中文:4 个字节,32 位 4. utf 8(最流 ...
分类:
其他好文 时间:
2020-03-06 22:00:21
阅读次数:
62
二次编码 编码回顾 二次编码 在 python 3 的内存中使用的是 Unicode 编码,而硬盘中存储时使用的是用户选择的编码方式[^1]。这样一来,就需要进行 Unicode 和其他编码方式的转变,也就涉及到 编码 和 解码 的问题。 编码是将字符转化为二进制的形式,使用的是 方法: 解码是将二 ...
分类:
其他好文 时间:
2020-03-06 21:44:46
阅读次数:
74
JavaScript 字符串(String) 对象 String 对象用于处理已有的字符块。 字符串位置(索引) /* 字符串位置(索引) */ var name = "waitting liang"; console.log("name: ",name); console.log("name的第8 ...
分类:
编程语言 时间:
2020-03-06 12:52:44
阅读次数:
96
YAML不是标记语言是一种数据序列化语言,它匹配用户对数据的期望。 它旨在提供人性化,并与其他编程语言完美配合。管理数据非常有用,包括Unicode可打印字符。本章将介绍YAML及其功能。 格式 考虑下面显示的文字 - Quick brown fox jumped over the lazy dog ...
分类:
其他好文 时间:
2020-03-06 01:50:34
阅读次数:
78
一、正则常用的方法 1.match:从开始位置开始查找,一次匹配 2.sear?ch:从任何位置查找,一次匹配 3.findall?:全部匹配,返回列表 4.finditer?:全部匹配,返回迭代器 5.?split:分割字符串,返回列表 ?6.sub:替换 7.匹配中文 中文unicode编码[u ...
分类:
编程语言 时间:
2020-03-06 01:49:15
阅读次数:
67
转义字符: 所有的ASCII都可以用“\”加数字(一般是8进制数字)来表示。而C中定义了一些字母前加"\"来表示常见的那些不能显示的ASCII字符,如\0,\t,\n等,就称为转义字符,因为后面的字符,都不是它本来的ASCII字符意思了。而Java又是在C++的基础上改进的,所以,Java也支持转义 ...
分类:
编程语言 时间:
2020-03-04 09:52:49
阅读次数:
92
第一种方法:Unicode码 在unicode码中,汉字的范围是(0x4E00, 9FBF) 这个方法比较简单,但是有个小问题,unicode码中收录了2万多个汉字,包含很多生僻的繁体字. 第二种方法:GBK2312 gbk2312对字符的编码采用两个字节相组合,第一个字节的范围是0xB0-0xF7 ...
分类:
编程语言 时间:
2020-03-03 10:37:21
阅读次数:
245
记得自己刚学计算机的时候,经常听到GBK,Unicode,UTF 8等编码,当时懵懵的,总是把GBK和Unicode搞混,那么这些编码到底有什么区别呢? 这还得从计算机的来由说起。 ~~很久很久以前~~,当计算机刚刚发明的时候,由于计算机只能接受2进制的数据,美国人民为了交流方便,约定了一套编码,他 ...
分类:
其他好文 时间:
2020-03-02 14:51:14
阅读次数:
61
datax使用心得: 1.下载路径:https://github.com/alibaba/DataX 在页面中【Quick Start】 >【Download DataX下载地址】进行下载。下载后的包名:datax.tar.gz。解压后{datax}目录下有{bin conf job lib log ...
分类:
其他好文 时间:
2020-03-01 19:46:01
阅读次数:
559