iT邦幫忙

2024 iThome 鐵人賽

DAY 21
0
自我挑戰組

技術隨筆系列 第 21

文字編碼發展的簡史

  • 分享至 

  • xImage
  •  

文字編碼的發展歷史主要可以分為以下幾個階段:

  1. ASCII (American Standard Code for Information Interchange):
    在1960年代,美國提出了ASCII編碼,為7位元(bit)的編碼標準,用於表示基本拉丁字母、數字和一些符號。它總共定義了128個字符,主要用於英語,無法表示其他語言的字符。

  2. Extended ASCII:
    為了應對ASCII編碼的局限性,8位元(8-bit)的擴展ASCII被提出,這使得編碼可以表示256個字符,為歐洲語言等提供了額外的字符支持。然而,擴展ASCII的標準並不統一,不同的地區和廠商有各自的擴展方式。

  3. ISO-8859 系列:
    為了標準化8位元編碼,國際標準化組織(ISO)提出了ISO-8859系列編碼,例如ISO-8859-1(又稱為Latin-1),被廣泛用於西歐語言。不同的ISO-8859編碼表可以支持不同語言字符,但這些編碼之間並不兼容。

  4. 多字節編碼(Multi-byte Encoding):
    為了支持更多的語言和字符,特別是亞洲語言,需要使用比8位元更多的位元來表示一個字符。這促使了像GB2312(中文)、Shift JIS(日文)、EUC-KR(韓文)等編碼的誕生。然而,這些編碼並不互通,且多字節編碼的實現相對複雜。

  5. Unicode 和 UTF 編碼:
    為了統一全球文字編碼,Unicode 出現了。Unicode 本身是一個字符集,包含了全球大部分語言的字符定義,但並沒有規定字符的具體儲存方式。為此,出現了多種Unicode編碼方式,其中最常用的是:

  • UTF-8:變長編碼,兼容ASCII(對於ASCII字符使用1字節),其他字符則使用2至4字節,廣泛用於網頁、檔案存儲等場合。
  • UTF-16:變長編碼,每個字符使用2或4字節,主要用於內部字符處理,如Windows系統和某些程式語言的字符串處理。
  • UTF-32:固定長度編碼,每個字符都使用4字節,簡化字符處理但佔用更多空間,使用較少。

目前,UTF-8 是最廣泛使用的文字編碼方式,因為它能有效地表示多語種字符且向後兼容ASCII,因此在互聯網和大多數應用程式中都以UTF-8為主流編碼標準。


上一篇
數據壓縮演算法簡史
下一篇
適合透過程式生成的文件格式
系列文
技術隨筆30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言