文字編碼的發展歷史主要可以分為以下幾個階段:
ASCII (American Standard Code for Information Interchange):
在1960年代,美國提出了ASCII編碼,為7位元(bit)的編碼標準,用於表示基本拉丁字母、數字和一些符號。它總共定義了128個字符,主要用於英語,無法表示其他語言的字符。
Extended ASCII:
為了應對ASCII編碼的局限性,8位元(8-bit)的擴展ASCII被提出,這使得編碼可以表示256個字符,為歐洲語言等提供了額外的字符支持。然而,擴展ASCII的標準並不統一,不同的地區和廠商有各自的擴展方式。
ISO-8859 系列:
為了標準化8位元編碼,國際標準化組織(ISO)提出了ISO-8859系列編碼,例如ISO-8859-1(又稱為Latin-1),被廣泛用於西歐語言。不同的ISO-8859編碼表可以支持不同語言字符,但這些編碼之間並不兼容。
多字節編碼(Multi-byte Encoding):
為了支持更多的語言和字符,特別是亞洲語言,需要使用比8位元更多的位元來表示一個字符。這促使了像GB2312(中文)、Shift JIS(日文)、EUC-KR(韓文)等編碼的誕生。然而,這些編碼並不互通,且多字節編碼的實現相對複雜。
Unicode 和 UTF 編碼:
為了統一全球文字編碼,Unicode 出現了。Unicode 本身是一個字符集,包含了全球大部分語言的字符定義,但並沒有規定字符的具體儲存方式。為此,出現了多種Unicode編碼方式,其中最常用的是:
目前,UTF-8 是最廣泛使用的文字編碼方式,因為它能有效地表示多語種字符且向後兼容ASCII,因此在互聯網和大多數應用程式中都以UTF-8
為主流編碼標準。