码迷,mamicode.com
首页 > 其他好文 > 详细

字符编码

时间:2018-01-26 00:29:38      阅读:168      评论:0      收藏:0      [点我收藏+]

标签:程序   asc   字节   mp3   字母   nic   utf-8   pytho   color   

python解释器在加载.py文件中的代码时,会对内容进行编码(默认ASCII)

ASCII(美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用8位来表示(一个字节,等于8个比特(bit)),即:2**8 = 256-1,所以,ASCII码最多只能表示255个符号。

为了处理汉字,程序员设计了用于简体中文的GB2312(7445个字符)和用于繁体中文的big5。

GB2312支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号,它分为汉子区和图形符号区。汉字区包括21003个字符。

2000年的GB18030是取代GBK1.0的正式国家标准,该标准收录了27484个汉字,同时还收录了一些少数民族的文字。现在的PC平台必须支持GB18030,对嵌入式产品暂不做要求。所以手机,MP3一般只支持GB2312.

由于ASCII码无法将世界上的各种文字和符号全部显示,所以,Unicode就诞生了。

Unicode(统一码、万国码)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,规定虽有的字符和符号最少由16位来表示(2个字节),即:2**16 = 65536。

UTF-8,是对Unicode编码的压缩和优化,它不再使用最少2个字节,而是将所有的字符和符号进行分类:ASCII码中的内容用1个字节保存、欧洲的字符用2个字节保存,东亚的字符用3个字节保存......

字符编码

标签:程序   asc   字节   mp3   字母   nic   utf-8   pytho   color   

原文地址:https://www.cnblogs.com/allenzhang-920/p/8353461.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!