iT邦幫忙

2025 iThome 鐵人賽

DAY 8
0
IT 管理

全字庫與中文系統常識簡介系列 第 8

為何早期圖書館系統使用 CCCII 為主要編碼?

  • 分享至 

  • xImage
  •  

你是否有聽過 中文資訊交換碼(Chinese Character Code for Information Interchange) ?
根據維基百科「中文資訊交換碼」條目介紹:

  • 1979年11月,加州史丹佛大學召開一場籌劃東亞圖書館自動化的會議,希望訂定中文交換碼的標準作為自動化之根據,以解決使用電腦處理東亞語文資料的問題。
  • 當時只有 日本的 JIS C6226,但漢字數量與字型均與中文有很大程度的差異。
  • 臺灣代表謝清俊在次年三月亞洲研究學會年會,提出臺灣方面的漢字編碼方案互作比較。

國字整理小組

1985年其國字整理組從中美會轉至文建會,改名為資訊應用國字整理小組),共同整理中文文字,並解決中文資訊處理的技術問題。

  • 字碼編定: 謝清俊、張仲陶、楊鍵樵、黃克東
  • 文字審查: 潘重規、周駿富、周何、何佑森、金祥恆
  • 中文資訊交換碼審查小組: 王振鵠、張鼎鍾

臺灣提出共 4,808 字的「中文資訊交換碼」;「中文資訊交換碼」的架構為美方接受,但要求擴大編碼字集。

國字整理小組成就

  • 1981年完成第二批,包括 17,032 個 正體字、11,517 個異體字
  • 1987年再發表第三批,包括20,583個 正體字。前後二次共計擴編至 53,940 個漢字字碼,並完成64×64,32×32的機讀字型
  • 編製「中國文字資料庫」(Chinese Character Database,簡稱CCDB),其中列出每個字屬性如部首、筆畫、讀音以及各種對應和輸入碼。
  • 從1979至1989十年間,共計整理、蒐集了 75,684 個漢字(正體字44,167、異體字31,517)。隨著張仲陶教授在1997年去世,以及謝清俊教授將發展方向轉往漢字構形資料庫,

根據國家發展委員會檔案管理局CCCII頁面的介紹,我們可以知道。

CCCII是一套相當完整的中文字集和編碼,廣為圖書館界所使用。CCCII以三個位元組來代表一個中文字,並以特別的94x94x94之編碼空間 存放(字元可有830,534個編碼空間),使檢索某一中文字的異體字變得容易,如:強、强、彊三字的後兩個位元組是一樣的。

CCCII 最大的特色就是能 針對異體字 做處理,可以透過後面兩個位元組來找到某個中文字的異體字。這也是在早期中文編碼系統中,很少見的做法。

如果各位對國字整理小組有興趣,可以到中研院資訊所謝清俊教授的專業查看相關資料。

現今網路上殘存的記憶

http://www.cccii.org.tw/

CCCII 非官方網站已經結束,目前仍可從 Internet Archive 找到當初的頁面存檔

個人對於當初的實作比較感興趣。

文煥終端機(whterm,Wen-Huan Terminal)

目前在此網頁還能下載 CCCII 的數位資料

編寫文章呈現的效果。

註: 圖片來源為 文煥終端機 作者執行終端機程式的螢幕截圖。


上一篇
DOS 年代有特色的繁體中文應用軟體有哪些
下一篇
萬碼奔騰的年代
系列文
全字庫與中文系統常識簡介10
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言