《LearnPython-Python学习笔记》-字符编码和python使用encode,decode转换utf-8,gbk,gb2312

admin 2025-11-07 00:57:19 编程 来源:ZONE.CI 全球网 0 阅读模式
  • ASCII码
  • 扩展ASCII码
  • Unicode编码
  • UTF-8编码
  • 解决python乱码问题

    ASCII码

    标准ASCII码使用7位二进制数表示大写或小写字母,数字0到9标点符号以及在美式英语中使用的特殊控制字符。在标准ASCII码中,最高位(b7)用作奇偶校验位,所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分寄校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。后128个称为扩展ASCII码。许多基于x86的系统都支持使用扩展(或“高”)ASCII。扩展ASCII 码允许将每个字符的第8 位用于确定附加的128 个特殊符号字符、外来语字母和图形符号。常见的ASCII码大小:换行LF为0x0A,回车CR为0x0D,空格为0x20,’0’为0x30,‘A’为0x41,’a’为0x61查询ASCII技巧,方便查询ASCII码对应的字符:新建一个文本文档,按住ALT+要查询的码值(注意,这里是十进制),松开即可显示出对应字符。例如:按住ALT+97,则会显示出’a’。

    扩展ASCII码

    扩展ASCII码是从128-255的字符。

    Unicode编码

    注意:Unicode只是一个符号集,它规定了符号的二进制代码,却没有规定二进制代码如何存储。所称的Unicode编码指的是UCS编码方式,即直接存入符号的Unicode二进制代码。

    UTF-8编码

    UTF-8是互联网上使用最广的一种Unicode的实现方式。UTF-8是一种变长的编码方式,它使用1-4个字节表示一个符号,根据不同的符号选择不同长度的字节表示。UTF-8的编码规则很简单,只有二条:1)对于单字节的符号,字节的第一位设为0,后面7位为这个符号的unicode码。因此对于英语字母,UTF-8编码和ASCII码是相同的。2)对于n字节的符号(n>1),第一个字节的前n位都设为1,第n+1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的unicode码。

    Unicode符号范围(16进制) UTF-8编码方式(2进制)
    0000 0000-0000 007F 0xxxxxxx
    0000 0080-0000 07FF 110xxxxx 10xxxxxx
    0000 0800-0000 FFFF 1110xxxx 10xxxxxx 10xxxxxx
    0001 0000-0010 FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

    跟据上表,解读UTF-8编码非常简单。如果一个字节的第一位是0,则这个字节单独就是一个字符;如果第一位是1,则连续有多少个1,就表示当前字符占用多少个字节。Unicode与UTF-8的转换方式:在Windows系统最简单的方式是采用记事本打开文档然后选择编码方式另存为。

    解决python乱码问题

    字符串在python内部中是采用unicode的编码方式,所以其他语言先decode转换成unicode编码,再encode转换成utf8编码。编码是一种用二进制数据表示抽象字符的方式,utf8是一种编码方式。代码中的字符串编码默认和代码文件编码相同。python2中的unicode和python3中的str等价。可以查看s.class,如果为则为unicode编码及文本数据,如果为则为utf8编码及二进制数据。str(s, ‘utf8’)和s.decode(‘utf8’)等价。如果字符串在代码中被定义为s=u’中文’,则s就是python内部编码unicode。unicode类型再解码会报错。判断一个字符串是否为unicode方法isinstance(s, unicode),python2中的unicode和python3中的str等价,所以在python3中判断一个字符串是否为unicode方法为isinstance(s, str)。获取系统默认编码:

    1. import sys
    2. print(sys.getdefaultencoding())

    有些IDE输出乱码是因为控制台不能输出字符串的编码不是程序本身的问题。比如windows的控制台是gb2312,则utf8的输出格式不能正确输出。一种输出格式为gb2312避免乱码的方式:

    1. #coding=utf-8
    2. s='中文'
    3. if(isinstance(s, str)):
    4. #s为u'中文'
    5. s.encode('gb2312')
    6. else:
    7. #s为'中文'
    8. s.decode('utf8').encode('gb2312')

    采用标准库codecs模块

    1. codecs.open(filename, mode='r', encoding=None, errors='strict', buffering=1)
    1. import codecs
    2. f = codecs.open(filename, encoding='utf-8')

    使用上边这种方式读进来utf-8文件,会自动转换为unicode。但必须明确该文件类型为utf8类型。如果是文件中有汉字,不是一个字节一个字节地读而是整个汉字的所有字节读进来然后转换成unicode(猜想跟汉字的utf8编码有关)。下边的代码也是一种使用codecs的读写方式

    1. #coding=utf-8
    2. import codecs
    3. fin = open("test.txt", 'r')
    4. fout = open("utf8.txt", 'w')
    5. reader = codecs.getreader('gbk')(fin)
    6. writer = codecs.getwriter('gbk')(fout)
    7. data = reader.read(10)
    8. #10是最大字节数,默认值为-1表示尽可能大。可以避免一次处理大量数据
    9. while data:
    10. writer.write(data)
    11. data = reader.read(10)

    https://www.cnblogs.com/jxzheng/p/5186490.html

    以太坊cppgolang区别 编程

    以太坊cppgolang区别

    以太坊是一种去中心化的开源平台,它采用智能合约技术,旨在构建和运行不受干扰的分布式应用程序。作为目前最受欢迎的区块链平台之一,以太坊提供了多种编程语言的支持,其
    progolang 编程

    progolang

    Go语言(Golang)是由Google开发的一门静态类型编程语言。作为一名专业的Golang开发者,我深知这门语言的优势和特点。在本文中,我将介绍Golang
    golangn个发送者 编程

    golangn个发送者

    Golang是一种开源的编程语言,由Google团队开发,旨在提高程序的并发性和简化软件开发过程。在Go语言中,有时需要向多个接收者发送信息。本文将介绍如何在G
    golang技能图谱 编程

    golang技能图谱

    从互联网行业的快速发展到人工智能技术的日益成熟,各种编程语言也应运而生。而在这众多的编程语言中,Golang(即Go)作为一门强大且高效的开发语言备受关注。Go
    评论:0   参与:  0