码迷,mamicode.com
首页 > 编程语言 > 详细

python 字符编码

时间:2020-06-05 23:17:46      阅读:71      评论:0      收藏:0      [点我收藏+]

标签:乱码   查看   nic   字符集   中文   unicode   两种   sci   原理   

python 字符编码

  • ASCII -->latin1 -->unicode编码

  • 字符 --> 数字编码存在一个对应的关系

  • 使用内置函数chr和ord能够查看数字二号字符的对应关系

  • ord获取字符对应的编码;chr根据编码获取对应的字符

print(ord(‘a‘))
print(chr(65))
print(ord(‘你‘))
print(chr(12371))

‘‘‘
97
A
20320
こ
‘‘‘
  • GBK(国际,汉字占两个字节,简体中文) utf-8(统一编码,汉字占三个字节) BIG5
print(‘你‘.encode(‘gbk‘))
print(‘你‘.encode(‘big5‘))
print(‘你‘.encode(‘utf-8‘))
‘‘‘
b‘\xc4\xe3‘
b‘\xa7A‘
b‘\xe4\xbd\xa0‘
‘‘‘

x = b‘\xe4\xbd\xa0‘
print(x.decode(‘utf8‘))
‘‘‘
你
‘‘‘

乱码的原理

原理:汉字写入的方式和读取的方式采用的两种不同的字符编码集,所以打开之后会乱码。

# 把‘你好’使用gbk编码
y = ‘你好‘.encode(‘utf-8‘)
print(y)

# gbk一个汉字占两个字节
print(y.decode(‘gbk‘))
print(y.decode(‘utf-8‘))

‘‘‘
b‘\xe4\xbd\xa0\xe5\xa5\xbd‘
浣犲ソ
你好
‘‘‘

txt 纯文本乱码,修改字符集 word 记事本打开

python 字符编码

标签:乱码   查看   nic   字符集   中文   unicode   两种   sci   原理   

原文地址:https://www.cnblogs.com/moumoonmm/p/13052578.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!