iT邦幫忙

2024 iThome 鐵人賽

DAY 7
0

前言

在AI時代,尤其是LLM的快速發展、計算需求劇增的狀況下,很常在一些新聞中看到「AI算力即國力」這個用法,而上個月Eric Schmidt在史丹佛下架但被廣為流傳的演講中也提到了類似的話「AI會讓富者愈富、窮人恆窮,國家也是,這是一場強國之間的遊戲,沒有技術資源的國家是很難加入這場盛宴」,本章節就來介紹台灣的超級電腦和現代基礎設施。

The rich get richer and the poor do the best they can.
They'll have to...
The fact of the matter is this is a rich country's game, right?
來源 - Eric Schmidt被備份的逐字稿,這當中還有很多有趣的大實話,非常值得一看XD

LLM主要的使用有訓練(微調)和推理,推理並不是主要需要算力的部分,通常會需要大量算力的狀況是訓練或微調的部分


那為什麼微調模型很重要呢?

最主要的原因是可以讓那個模型更了解繁體中文和台灣知識,且在應用上不需要依賴在國外大公司的服務底下,未來能成為一個獨立的local應用服務。如果要能做到這件事情,最重要的就是基礎設施了,也就是LLM龐大的算力使用來源。

在超級電腦或是資料中心的電腦,該怎麼使用做訓練?

包含每個學校可能會提供的VM服務(可能會是虛擬電腦教室之類的名字XD),user看到的畫面通常是去某個網站申請一個VM使用,而非一次去使用整個cluster的幾百台server。

這種服務稱為 IaaS(Infrastructure as a Service)

常見的像是AWS、GCP、Azure都是屬於IaaS服務。好的基礎設施可以按照所需的資源做分配、讓user更便利的使用到運算資源,更不用煩惱一個新電腦的環境怎麼建設、資源怎麼分配,更不用去做可憐的維運工作XD

舉例來說,現在台大最新的Llama-3-Taiwan-8B-Instruct就是基於最新的超級電腦Taipei-1的H100去做訓練的。雖然筆者是沒機會使用Taipei-1的人,不過基本上會是一個IaaS平台給user申請使用。


什麼是超級電腦?

超級電腦由許多計算節點組成,每個節點都有自己的處理器、記憶體和儲存空間,將多個計算節點組裝串接,就可構建出高效率、高性能的運算平台,並能執行一般個人電腦無法處理的龐大、複雜計算問題。GPU為主的電腦非常適合需要大量運算資源的LLM訓練和推理。視覺上,超級電腦體積非常龐大、甚至可占地一整面網球場,組裝起來的機櫃比人還要高。而其中用電價格更可怕了,每一年都是幾千萬元計費的!

目前世界上最強的超級電腦:Frontier
美國能源部橡樹嶺國家實驗室(ORNL)擁有目前世界上最強的超級電腦,名為Frontier。這台超級電腦使用的是AMD處理器,運算速度達到了1.206 exaFLOPS。


電腦運算速度單位簡介

超級電腦運算速度的指標是FLOPS,這是Floating-point Operations Per Second的縮寫,意思是每秒執行的浮點運算次數,也就是小數的四則運算。

各種FLOPS單位

FLOPS:Floating-point Operations Per Second,每秒執行的浮點運算次數。

  • 1 GFLOPS:每秒可執行10億次浮點運算。
  • 1 TFLOPS:每秒可執行1兆次浮點運算。
  • 1 PFLOPS:每秒可執行1,000兆次浮點運算。
  • 1 exaFLOPS:每秒可執行100京次浮點運算。

台灣的超級電腦

這裡簡單介紹一下台灣的超級電腦。以下內容來自網路,如有錯誤,歡迎指正!

  • Formosa I~V(Formosa I,997 GFLOPS)、IRIS(不到20 TFLOPS)
    Formosa I是台灣的第一部自製超級電腦,能查到的是約20年前誕生的國內第一部叢集式超級電腦,由150臺雙CPU伺服器所構成,其計算能量為997 GFLOPS。

  • 御風者 2011/8~2019國網中心,2019/7~成大計算類比中心 (177 TFLOPS)
    查的過程中突然出現一個很中二的名字,有驚訝到筆者,連曾待過國網的朋友也不知道有這一台。根據維基百科,「御風者」之名,是以《莊子·逍遙遊》裡描述戰國時代列子潛心修道九年後「御風而行」為典故來命名。

  • 台灣杉一號 2018/5~2024/3 (Taiwania 1,原名Peta HPC,1.7 PFlops)
    代替前面幾台捐贈給學術研究單位的電腦,之後會改由四號接手。網路上查到其佔用機房面積為10坪,僅御風者的三分之一,由此可知,在當時已經是非常省電的電腦了。
    主要部件:CPU (9座機櫃)
    計算核心:25,200個Intel Xeon Gold 6148處理器核心
    GPU加速器節點:256個Nvidia P100 GPU (3座機櫃)
    Green500 (2018):排名第31

  • 台灣杉二號 2018/11(Taiwania 2,9 PFlop/s)
    AI雲端平台TWCC (Taiwan Computing Cloud,臺灣AI雲) 使用的電腦,可以從官網去申請。
    主要部件:GPU
    計算核心:2,016個NVIDIA Tesla V100 32GB GPU
    TOP500 (2018):排名第20名
    Green500 (2018):排名第10名
    TOP500 (2024/6):排名第106名

補充:TOP500的比賽是一個從1993開始,每年六月和十一月的超級電腦排名比賽。而Green500則是關注超級電腦在能源效率上使用的比賽。

  • 台灣杉三號 2020/11(Taiwania 3,2.7 PFlop/s)
    網路上查到的申請說明,這台需要辦iService帳號告知國網中心計畫名稱和代號之後,才可以使用。 網址
    主要部件:CPU
    計算核心:50,400個
    TOP500 (2024/6):排名第456名

  • 創進一號 2023/7(Forerunner 1,3.5 PFlop/s)
    今年6/24開放線上服務,申請流程跟台灣杉三號相同。 說明 網址
    主要部件:CPU
    計算核心:62,496個
    TOP500 (2024/6):排名第251名

  • PRIMEHPC FX1000(一台10個機櫃11.16 PFlop/s,另一台5個機櫃5.6 PFlop/s)
    中央氣象局使用的超級電腦,目前是第六代的超級電腦,從2021開始花三年建置,在2024/2啟用,取代被移至高雄科工館的第五代超級電腦。第六代超級電腦分為兩個系統,分為10個及5個FX1000機櫃(同地備援)。
    主要部件:CPU
    計算核心:184,320個(10個機櫃) + 92,160個(5個機櫃)
    GPU:24個伺服器,共192個Nvidia A100 GPU
    TOP500 (2023/11):排名第69名(10個機櫃),排名第140名(5個機櫃)
    TOP500 (2024/6):排名第86名(10個機櫃),排名第160名(5個機櫃)

  • Taipei-1 在2023年底建置完成 2024/4啟用說明會(22.3 PFlop/s)
    目前最有名的一座,初始計劃地點為台北,故名Taipei-1,現在位於高雄軟體園區。裡面4分之1的算力,將提供產官學使用,剩下3/4推測是由NVIDIA公司自行使用。年初有開放申請使用,八月底也有第二次申請,不過從第一次審查結果來看,能申請到的看來應該都是學校計畫、大公司或政府機構,主要是給已經有資料集只差算力的團隊申請。另外未來也有規劃會再建立另一座NV的超級電腦。
    主要部件:GPU
    GPU:64台DGX (每台8個H100),32台OVX
    TOP500 (2024/6):排名第38名

  • 台灣杉四號(3.4 PFlop/s)
    標案由華碩在2023/5得到,目前也正在規畫新的GPU架構臺灣杉五號,國網中心也以5年內將算力提升至100到200PFlops為目標,以滿足國內科學研究、AI應用的需求。將代替退休的台灣杉一號,提供高效能計算資源,主要將用於氣候預測、天體物理模擬、分子模型模擬及工程設計與模擬等研究課題。
    主要部件:CPU
    計算核心:62,496個
    未來規劃:將使用Nvidia Grace CPU Superchip,成為亞洲最省電的超級電腦。


章節總結

考古真的超級難的,這章整理了目前台灣有什麼運算資源可以申請,也學到了該怎麼看超級電腦的速度單位,可以看到這幾年TOP500排名可以發現其實台灣的超級電腦一直都排行滿高的,看來要微調一百個模型都不是問題了XD

當然本系列只有打算要應用這些大大們微調的模型,下一章我們將來看看AI、LLM背後的水電消耗。

P.S. 筆者今天都在參加活動,中午發的版本是先前寫過的第一版,晚上12.前趕快補一下詳細的介紹版本XDD

每日梗圖 - 病毒的傳播
https://ithelp.ithome.com.tw/upload/images/20240903/20168115qH9T2EG8RN.jpg
(圖源: reddit)


參考資料

揭開超級電腦神秘面紗 「開箱國網超級電腦」科普展
https://www.nlpi.edu.tw/ActivitiesDetailC001100.aspx?Cond=7aff022a-649c-413f-ab9e-ba82c366662e
御風者
https://zh.wikipedia.org/wiki/%E5%BE%A1%E9%A2%A8%E8%80%85
JUNE 2024
https://top500.org/lists/top500/2024/06/
五百大超級電腦出爐,Aurora加入Frontier,成為另一達到Exascale規模的超級電腦
https://www.ithome.com.tw/news/162864
超級電腦
https://www.nchc.org.tw/Page?itemid=2&mid=4
超級電腦是什麼?AI運算為何不靠它不行?台灣布局一次看
https://www.cna.com.tw/news/ait/202406100033.aspx
Taipei-1
https://zh.wikipedia.org/wiki/Taipei-1
獨/全台縣市爭搶輝達AI超級電腦中心落腳高雄?
https://www.businessweekly.com.tw/focus/blog/3015810
搭載Nvidia GPU的超級電腦,2座在台灣!黃仁勳衝刺AI還秀出哪些肌肉?
https://www.bnext.com.tw/article/75447/nvidia-supercomputer-dgx-gh200-taiwan
採模組化與水冷設計,富士通整櫃式Arm架構超級電腦登臺
https://www.ithome.com.tw/review/150918
氣象署啟用第6代超級電腦,建置GPU運算系統加速發展AI天氣測報應用
https://www.ithome.com.tw/news/161524
請GPT-4o幫忙重點整理考古來的資料


上一篇
Day6 - 選擇適合你VRAM的模型
下一篇
Day8 - AI、LLM與水電消耗
系列文
Local LLM infra & Inference 一部曲26
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言