【笔记】字符编解码乱码

发表于 2025-06-10 更新于 2026-04-06 阅读次数：

前言

字符编解码乱码

使用Unicode解码字符时，如果解码超出范围[0x0000,0x10FFFF]，则Unicode会将其定义为U+FFFD（�），内存中的值为0xEFBFBD
使用GBK解码字符时，会将其识别为锟（0xEFBF）斤（0xBFEF）拷（0xBFBD）

EF BF：锟
BD EF：斤
BF BD：拷

1	EF BF BD EF BF BD EF BF

使用GBK解码字符时，如果解码的最后一个字符是单字节，则GBK会将其定义为0x3F
- 例如：使用Unicode编码的你（0xE4BD0A），使用GBK解码的时候会被定义为0xE4BD3F

CC CC：烫

1	CC CC CC CC CC CC CC CC

CD CD：屯

1	CD CD CD CD CD CD CD CD

E4 BF：淇
A1 E6：℃
81 AF：伅

1	E4 BF A1 E6 81 AF