iT邦幫忙

2023 iThome 鐵人賽

DAY 24
0

全端 LLM 應用開發-Day24-緊急插入中研院事件

中研院 CKIP 團隊今天爆出爭議,緊急插入這篇文章。

中研院前陣子釋出的 CKIP-Llama-2-7b 與其衍生的 CKIP-Llama-2-7b-chat 爆出重大爭議,被發現有大量的中國資料集,連問國慶日這個問題,都會出現中國的國慶日十月一日。

然而,其實中研院早就說過 CKIP-Llama-2-7b 有大量的中國資料集,而且在介紹裡也清楚明白說了許多資料都是透過 opencc 這套簡體轉繁體的工具來達成的。

繁體資料集之匱乏,訓練集資料的準備與整理也是相當昂貴,加上中研院這類的學術單位能拿到的研究經費也不多,能做出 CKIP-Llama-2-7b 這種穩定輸出繁體中文的模型已經很不容易了。連 ChatGPT 即使叫他用繁體中文回答,也常常會出現簡體中文。

不過我們從另一個面向來看的話,繁體中文的 LLM 其實是一個藍海。做為長期研究與分享 LLM 技術的工程師,我分享幾個未來繁體中文(台灣)可以做的方向,商機也都一併寫在下面。

  1. 建立大量繁體中文(台灣)的資料集:
    這個自然是放在第一項。這次中研院事件,就是因為繁體中文的資料集之缺乏,所以只好用簡體中文的資料集來做繁轉簡的工作。

建立資料集是很費工費時也費錢的工作。以軟體領域的中文資料舉例,你可能就要請一個請軟體領域的專家來做軟體中文資料的標註。這個專家要能知道「面對對象」和「物件導向」哪個是繁中用詞,哪個是簡中用詞,而且還要精通軟體相關的知識,才能有高品質的資料。請這種專家來,價格自然是不便宜,而且還不能只請一位。試想每個專業領域都請個兩位的專家來整理資料,那麼價錢會是多貴?

但是,建立屬於台灣的繁體中文資料集,絕對是第一優先要做的。

  1. 缺乏基於六書的理解:
    大家都知道繁體中文不僅僅是基於圖片的文字,基於圖片的部份只有象形,其他還有指事、會意、形聲、轉注、假借。以目前自然語言處理主流的 subword 相關的演算法,根本沒有處理到中文的本質。關於 subword 的演算法,可以去讀我之前寫的文章:「Day11-當代的 Tokenizer algorithm」。

  2. 更進一步的還有部首:
    很多字我們都可以看部首而去猜到這個字可能是什麼意思。像是「鳥」部的字,往往和鳥類有關係;「骨」部的字,往往和身體或骨骼有關係。然而這還是有很多挑戰,例如說很多字的意義,和部首卻又沒有關係。簡體中文的部首、日文漢字的部首,與繁體中文的部首又往往不太一樣。部首是非常難做的地方,不過一樣的,目前自然語言處理主流的 subword 相關的演算法,根本沒有處理到部首這一塊。

但是,部首在新生兒或是企業取名時是非常重要的。例如說今年是兔年,兔喜歡有木、有草、有寶蓋頭像穴居的地方。這種時候取有這類部首的名字就非常有用,也是滿滿的商機。

  1. 字的五行:
    中文的字是有五行的,而且一個字的五行往往不容易知道,而且一字常常有多個五行。像是「鑠」這個字,直覺來猜的話是五行屬金,但這個字其實五行屬金也屬火,因為這個「鑠」也有用大火高溫把金屬鎔化的意思。

字的五行有著大量的商機,一樣是在新生兒或是企業取名時,往往會去補足缺乏的五行。

  1. 日語的部份:
    台灣的繁體中文很多受到日語的影響,像我們說「羅賴把」、「北啊令古」等字詞,在台灣生長的繁中使用者都能知道這是什麼意思。我有一位在台灣學中文的日本朋友,他說這類的詞語在台灣約有一千個上下。聽到一千個上下,我眼睛都亮了,這在自然語言處理的規模是一個極小的數量啊!

  2. 台語的部份:
    之前我有分享過問 ChatGPT 「誰玲瓏」是什麼意思,祂答不出來。可是懂台語的人都知道「誰玲瓏」是指旋轉繞圈圈的意思。台灣的繁體中文有大量台語的整合,許多人也不會台羅文,只會把台語的發音直接切換成中文文字。這個方向就還滿值得做的,也可以做出更多的市場區隔。

以上方向絕對有機會能賺錢,除了日文和台語的部份外,六書、部首、五行等中文特性,在幾十億人的中國市場也會適用。(不說個在幾十億人的中國市場也會適用,可能就沒人要做了吧🥲🥲🥲)

一定要 Fine tune 模型嗎?

不,很多應用場合其實不一定要 fine tune。我們在 Day 23 時也講了 fine tune 的應用場景,也說明許多場合其實靠 RAG 可以解決。Fine tune 出一個屬於台灣的自然語言模型,成本相當巨大。我們做為一個小小的工程師,一窮二白、低薪爆肝,也只能關注在 LLMs 的應用開發上面。明天我們繼續講解 Langchain 的使用。


上一篇
全端 LLM 應用開發-Day23-Langchain 介紹與缺點
下一篇
全端 LLM 應用開發-Day25-用 Langchain 來做 embedding
系列文
全端 LLM 應用開發(向量資料庫, Hugging Face, OpenAI, Azure ML, LangChain, FastAPI and more)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言