人工智慧不是新的題目,從 1990 年之前就有機械或電子的方式開展人工智慧的領域。不過,過往和當今對於「人工智慧」的定義是不同的,以前教科書寫的是 “A computer which can mimic people’s behaviors.” 也就是「模擬人類行為的電腦」,範圍非常廣泛,因此模擬人類觸摸、抓取、碰觸、揮打、站立的機器手臂或下肢也算是傳統的 AI,但和今日的想像已經不太一樣了。
為什麼 Google、微軟、IBM、Facebook、百度等各大企業,以及各國政府爭相投入資源發展 AI 呢?主要有三大要素的組合:
[1] Powerful Algorithms 強大的演算法,像是用 deep learning 打敗人類最強棋士的 Alpha Go,特徵是非常 domain-specific 或 result-oriented,針對解決單一問題來進行任務,下圍棋的演算法沒辦法用來開無人車,反之亦然。目前的演算法多為深度學習
[2] Compute Power 運算能力,因為深度學習類神經網路有非常多層,運算能力如果跟不上是無法發展成熟的。運算能力要好,不只是 PC、硬碟的成本降低而已,重藥的關鍵在於雲端運算,從 2006 年 AWS 推出第一份正式的商業雲端服務以來,目前雲端三大業者 AWS、微軟、Google 遍佈全世界讓所有開發者都可以使用 data center 的數量已經超過 100 個,好來支撐 computer power 與儲存空間
[3] Big Data 大數據,什麼樣的 data 是 validate 的、能解決 domain-specific 的問題?我們需要不僅是企業內部的資料,也來自廣大的社會,如穿戴式裝置、Facebook、Twitter、IOT... 等。
以電腦視覺(Computer Vision)而言,2010 年開始,由一群 Stanford University 專門研究電腦視覺演算法的教授發起的全球性比賽 ImageNet,以機器判讀圖像資料庫裡的圖片,比如看到貓、狗的照片正確做出辨識,Error rates 最低者為冠軍。人類(Stanford 大學的學生)的錯誤率約 5.1%,而 2010 - 2011 年奪冠組別的錯誤率都在 25% 以上,距離市場化還有遠。2012 年 University of Toronto 奪冠,錯誤率約 16.4%,採取的是深度學習的演算法(AlexNet, 8 layers),從這一年開始,往後第一名的團隊都是使用 Deep learning 演算法判讀影像。2015 年 Microsoft 首次把錯誤率降低到人類以下(ResNet, 152 layers, error rate 3.5%),也就是表現得比人類還好!這代表了技術開始能夠被市場化了。
那麼,這麼厲害的深度學習是什麼呢?它屬於機器學習的一種子範疇,運用類神經網絡的方式,多層次(> 3 layers)地進行運算。層數越少,精準度相對低,但速度較快、Package size 較低,反之亦然;目前 GitHub 上有許多 pre-trained model,可以自行取用、修改、微調參數來符合我們的需求。Google、Microsoft 等公司也釋出許多電腦視覺相關的開源 API,即便使用者不理解演算法的內容,依然可直接使用。圖像是 pixel by pixel 的組合,程式很難讀取,一旦化成文字便可以利用程式讀取及應用它。除了照片,手寫字、臉部、影片索引、語音等辨識也相當成熟。
人眼在處理的畫面事實上是一連串的動態影像,使用電腦處理的方式是 Segmentation,區分影片中哪些部分屬於地面、天空、人、車、貓、狗... 等,簡單快速地做出判斷,越即時的分析仰賴越強的運算能力、儲存。Youtube 每天有成千上萬個影片被上傳,我們會希望機器來幫助萃取出這些 Metadata 的意義、判別影片中的場景及內容,像是 Security 的實務應用,在大門、街頭安裝攝影機,只希望在有不認識的人進入後透過系統達到警示功能。
機器學習有分監督與非監督式:監督式學習是我們教電腦什麼是樹、天空、車、貓、狗,輸入夠多樹的圖片就能讓電腦辨識出來,更上一層的應用是特別用於動態影片、協助醫師判讀病理切片的 Multi instance learning,透過強大的演算法與運算能力完成即使受過訓練的人類也很難做到盡善盡美的任務,AI 並非要取代人類,而是協助我們做出更好的判斷,比如機器為病理切片中最有可能出現癌細胞的範圍做排序,大幅減少醫師審閱大量且精細病理切片的時間、提升準確度,畢竟只要出現一個可能是癌細胞的切面就有其意義;或針對醫學影像中不同組織、器官進行 segmentation,以利於後續的臨床判斷與做決策。雲端運算帶來非常強大的 Computing power 與 Storage,但應用層面我們希望訓練出來的 AI 模組不只是長在雲端、想要呼叫時才呼叫它,這需要 Internet,但即時反應延遲造成的 Latency,沒有網路或非常需要即時同步的狀況下,邊緣運算的需求就會產生。
AI 帶來許多社會上的改變,隨之而來的是相對的責任。以往世代交替的改變、社會轉換的過程需要數十年的時間,AI 近幾年來突破性的發展改變了社會的結構(如職業別),擴散後所影響到的人群也很多、變動也將更加劇烈,現在改變人們生活的科技不再是我們看得見的部分,而是隱藏在我們的背後,如我們的電腦、手機、穿戴式裝置裡,並互相連結。現在,已經不是一個個人走在街道上、一輛輛車行駛在馬路上,每個辦公室裡、交通載具上有太多裝置互相鏈接,可能衍生出以下幾種需要格外留心的議題:
[1] 隱私 Privacy:我們能輕易辨識人臉或車牌號碼,上網搜尋到他/她/它以往的歷史紀錄,我們能否控制自己的哪些資訊能被他人搜索到?
[2] Cybersecurity:當全世界都串接在一起,當有個 single point failure、或 single entry point 被攻破,影響的層面可能不僅僅是個人、更可能是系統化的,這也是我們必須著墨之處。
[3] Ethical AI:AI 可以做許多事情,但我們也需要討論什麼事情 AI 可以做、又有哪些事情 AI 不能做。
以上的問題,沒有標準答案,我們每個人心中可能都有某種定見、每個政府也都了解要重視哪些環節,AI 發展的過程中,政治、法律也必須快速跟上,馬車時代轉換到汽車時代要 10 多年才完成,但資訊的變化步調已經和當時有極大的差異,值得我們磨練敏銳度悉心地思考與討論。AI 像是個放大器(Amplifier,唐鳳說的增幅),不是用來取代人類,而是放大人類所能做的事情與良善,因此我們將 AI 用於提昇醫療可近性、協助盲胞朋友,但也可能放大了我們的惡,就像炸彈能開山、也能殺人。AI 影響的層面更多、更深遠,這都取決於我們如何運用它的念頭,也是我們每個人的責任。