中研院 CKIP 團隊今天爆出爭議,緊急插入這篇文章。
中研院前陣子釋出的 CKIP-Llama-2-7b 與其衍生的 CKIP-Llama-2-7b-chat 爆出重大爭議,被發現有大量的中國資料集,連問國慶日這個問題,都會出現中國的國慶日十月一日。
然而,其實中研院早就說過 CKIP-Llama-2-7b 有大量的中國資料集,而且在介紹裡也清楚明白說了許多資料都是透過 opencc 這套簡體轉繁體的工具來達成的。
繁體資料集之匱乏,訓練集資料的準備與整理也是相當昂貴,加上中研院這類的學術單位能拿到的研究經費也不多,能做出 CKIP-Llama-2-7b 這種穩定輸出繁體中文的模型已經很不容易了。連 ChatGPT 即使叫他用繁體中文回答,也常常會出現簡體中文。
不過我們從另一個面向來看的話,繁體中文的 LLM 其實是一個藍海。做為長期研究與分享 LLM 技術的工程師,我分享幾個未來繁體中文(台灣)可以做的方向,商機也都一併寫在下面。
建立資料集是很費工費時也費錢的工作。以軟體領域的中文資料舉例,你可能就要請一個請軟體領域的專家來做軟體中文資料的標註。這個專家要能知道「面對對象」和「物件導向」哪個是繁中用詞,哪個是簡中用詞,而且還要精通軟體相關的知識,才能有高品質的資料。請這種專家來,價格自然是不便宜,而且還不能只請一位。試想每個專業領域都請個兩位的專家來整理資料,那麼價錢會是多貴?
但是,建立屬於台灣的繁體中文資料集,絕對是第一優先要做的。
缺乏基於六書的理解:
大家都知道繁體中文不僅僅是基於圖片的文字,基於圖片的部份只有象形,其他還有指事、會意、形聲、轉注、假借。以目前自然語言處理主流的 subword 相關的演算法,根本沒有處理到中文的本質。關於 subword 的演算法,可以去讀我之前寫的文章:「Day11-當代的 Tokenizer algorithm」。
更進一步的還有部首:
很多字我們都可以看部首而去猜到這個字可能是什麼意思。像是「鳥」部的字,往往和鳥類有關係;「骨」部的字,往往和身體或骨骼有關係。然而這還是有很多挑戰,例如說很多字的意義,和部首卻又沒有關係。簡體中文的部首、日文漢字的部首,與繁體中文的部首又往往不太一樣。部首是非常難做的地方,不過一樣的,目前自然語言處理主流的 subword 相關的演算法,根本沒有處理到部首這一塊。
但是,部首在新生兒或是企業取名時是非常重要的。例如說今年是兔年,兔喜歡有木、有草、有寶蓋頭像穴居的地方。這種時候取有這類部首的名字就非常有用,也是滿滿的商機。
字的五行有著大量的商機,一樣是在新生兒或是企業取名時,往往會去補足缺乏的五行。
日語的部份:
台灣的繁體中文很多受到日語的影響,像我們說「羅賴把」、「北啊令古」等字詞,在台灣生長的繁中使用者都能知道這是什麼意思。我有一位在台灣學中文的日本朋友,他說這類的詞語在台灣約有一千個上下。聽到一千個上下,我眼睛都亮了,這在自然語言處理的規模是一個極小的數量啊!
台語的部份:
之前我有分享過問 ChatGPT 「誰玲瓏」是什麼意思,祂答不出來。可是懂台語的人都知道「誰玲瓏」是指旋轉繞圈圈的意思。台灣的繁體中文有大量台語的整合,許多人也不會台羅文,只會把台語的發音直接切換成中文文字。這個方向就還滿值得做的,也可以做出更多的市場區隔。
以上方向絕對有機會能賺錢,除了日文和台語的部份外,六書、部首、五行等中文特性,在幾十億人的中國市場也會適用。(不說個在幾十億人的中國市場也會適用,可能就沒人要做了吧🥲🥲🥲)
不,很多應用場合其實不一定要 fine tune。我們在 Day 23 時也講了 fine tune 的應用場景,也說明許多場合其實靠 RAG 可以解決。Fine tune 出一個屬於台灣的自然語言模型,成本相當巨大。我們做為一個小小的工程師,一窮二白、低薪爆肝,也只能關注在 LLMs 的應用開發上面。明天我們繼續講解 Langchain 的使用。