iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 2
0

在架構上,Alphago可以說有兩個大腦。
第一個大腦「策略網路」,用監督式學習,來判斷對手最可能的落子位置。大量輸入這個世界上職業棋手的棋譜,來預測可能的位置。雖預測正確機率只有57%,但Alphago在兩個層面做了加強,一是利用了"增強策略網路"的技術,一個基礎版本的策略網路與進階版策略網路對弈,互相訓練,提升預測的準確率。二是先透過卷積核排除依些區域不計算,再從剩餘區域找最可能的位置。
第二個大腦是「評價網路」,關注目前局勢來說勝率是多少。輸贏跟原來的兩人實力無關,而是跟下的位置有關。因此評價網路並不是透過這世界上已知的棋譜作為訓練,因為人類對奕會受到雙方實力的影響,所以透過兩台對弈的方式,可以快速地累積出正確的評價樣本,而最終答案他會留到最後的蒙利卡羅搜尋樹中解決。
而蒙利卡羅搜尋樹包含四步驟:
1.選取:根據目前狀態,選幾種可能的對手落子模式
2.展開:根據對手落子,展開至勝率的最大的落子模式
3.評估:將行動後的棋局丟置評價網路評估勝率
4.倒傳導:在我們落子之後,根據我們落子的位置再次預測對手會落子的位子
參考資料:https://dotblogs.com.tw/allanyiin/2016/03/12/222215


上一篇
AI - Alphago
下一篇
AI Strong&Weak
系列文
AI 人工智慧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言