关于编码：ansi、GB2312、unicode与utf-8的区别（操作系统和浏览器）

IsaacZ · 发表于 2019-1-24 21:32:51

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

【转贴来源：https://blog.csdn.net/chruan/article/details/8812110】

　　终于对编码有一定的认识，一说编码，就tmd的恶心。

关于编码：ansi、GB2312、unicode与utf-8的区别

　　先做一个小小的试验：

　　在一个文件夹里，把一个txt文本（文本里包含“今天的天气非常好”这句话）分别另存为ansi、unicode、utf-8这三种编码的txt文件。然后，在该文件夹上点击右键，选择“搜索(E)…”。

　　搜索“天气”二字，可以搜索出ansi和unicode这两种编码的txt文件，搜索不出utf-8编码的文件。

　　原因：

　　1.中文操作系统默认ansi编码，生成的txt文件默认为ansi编码，所以，可以搜索出来。

　　2.unicode是国际通用编码，所以，可以搜索出来。

　　3.utf-8编码是unicode编码在网络之间（主要是网页）传输时的一种“变通”和“桥梁”编码。utf-8在网络之间传输时可以节约数据量。所以，使用操作系统无法搜索出txt文本。

　　按照utf-8创始人的愿望：　　

端（unicode）——传输（utf-8）——端（unicode）

但是，后来，许多网站开发者在开发网页时直接使用utf-8编码。　

端（utf-8）——传输（utf-8）——端（utf-8）

所以，在浏览器上看到的编码是：unicode（utf-8）。正因为在浏览器上这么并列地列出unicode（utf-8），造成许多网友（甚至不少程序员）误认为unicode=utf-8。其实，按照utf-8创始人的原意，在开发网页时使用utf-8编码是错误的做法，并且，早期的浏览器也不支持解析utf-8编码。但是，众人的力量是巨大的，微软不得不“趋炎附势”，在浏览器上支持解析utf-8编码。

　　问题是：utf-8编码影响了网站开发者，或者说，网站开发者“扩展”了utf-8编码的使用范围。但是，网站开发者仍然无法影响各类文档的开发者，所以，word文档和一些国际通用的文档仍然使用unicode编码而不使用utf-8编码。

　　比如：“严”的Unicode码是4E25，UTF-8编码是E4B8A5，两者是不一样的。

　　在中文和日文操作系统里生成的（txt和xml）文件的编码虽然都是ansi，但是，在简体中文系统下，ansi 编码代表 GB2312 编码，在日文操作系统下，ansi 编码代表 JIS 编码。不同 ansi 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ansi 编码的文本中。

　　结论：
　　  -  国际文档（txt和xml）使用unicode编码是正宗做法；
　　  -  操作系统和浏览器都能够“理解”unicode编码。
　　  -  浏览器“迫于压力”才“理解”utf-8编码。
　　  -  但是，操作系统有时只认unicode编码。

　　Unicode 与 Unicode big endian的区别：你吃鸡蛋时先吃小头还是先吃大头？Unicode与Unicode big endian的区别就是在编码时小头优先与大头优先的区别。“随波逐流”使用Unicode就OK了。

　　我（不是程序员）这几年一直因为编码问题，感到非常困惑，查了许多资料，在国际文档的实际应用中也遇到过许多问题，所以，“感性”地总结了上述观点，不一定准确（或者说，不一定正确）。

伤心的笔 · 发表于 2019-1-25 09:40:17

这一篇不是很好，用词方面没有区分Unicode和UTF16

IsaacZ · 发表于 2019-1-25 10:18:07

伤心的笔发表于 2019-1-25 09:40
这一篇不是很好，用词方面没有区分Unicode和UTF16

这一篇直接使用了 “Unicode编码” 这样的表述，并和UTF-8并列比较，感觉怪怪的。根据另一篇中的表述：

UTF-16：其本身就是标准的 Unicode 编码方案，又称为 UCS-2，它固定使用 16 bits（两个字节）来表示一个字符。

作者的意思应该就是指的 UTF-16。

作为专业人士，你应该在这些基础知识上有更深刻的理解，欢迎进一步科普。

伤心的笔 · 发表于 2019-1-25 18:02:23

本帖最后由伤心的笔于 2019-1-25 18:04 编辑

IsaacZ 发表于 2019-1-25 10:18
这一篇直接使用了 “Unicode编码” 这样的表述，并和UTF-8并列比较，感觉怪怪的。根据另一篇中的表述：作 ...

确切的说是UTF-16 LE

UCS-2 和 UTF-16 LE 也是不一样的。UCS-2是一个集合，是Unicode字符集的真子集，只包括用两个字节表示的字符。UCS-4集合和Unicode字符集是一样的。
UTF-16 编码（无论是LE还是BE）表示的集合是Unicode字符集，而非UCS-2，一个字符可能是两个字节或四个字节（比如emoji）。

账号		自动登录	找回密码
密码			立即注册

教程经验总索引	TVMW5/小日本5 索引【视频转换】	小日本4/TE4XP 索引【视频转换】	TAW4 / TDA3 索引【DVD打包软件】
Nero 索引	DVD-Lab 索引【DVD打包软件】	编解码器索引	【必读】固顶帖011号！

[资料] 关于编码：ansi、GB2312、unicode与utf-8的区别（操作系统和浏览器）

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。