iT邦幫忙

第 12 屆 iThome 鐵人賽

DAY 20
1
AI & Data

飛哥與小博的30天-統計與機器學習成長日記系列 第 20

[DAY 20] 章節2-14: 快追上我啊-模型評判AIC、BIC

  • 分享至 

  • xImage
  •  

2-12 快追上我啊

飛哥走出大樓後,看了看手錶,「嗯。三點整,看來可以跑個一兩圈。」

暖身的同時,小博也跟著跑來似乎也要一起慢跑動動筋骨,平常飛哥都是穿著長褲上班,這時看到飛哥略微精實的小腿不由得意外了下,因為小博平常很少看到飛哥運動。

走近飛哥身旁,小博問了問:「剛剛疾管署的模型你說用 AIC、BIC 去判定好壞,那這兩個方法的用途是在哪裡呢? 有甚麼不同嗎?」

「你追上來就跟你說。」飛哥暖身完後朝著身後的小博說,就徑直沿著國父紀念館的周圍開始跑步。

小博追了上去,跑了一小段後,呼吸略顯凌亂,「我追上啦!快跟我說!」。

飛哥回頭看了一眼說:「不錯喔!追上來啦!一般我們我們在找適合模型的變數時,都會希望資訊愈多愈好,所以有時候就會給了一大堆無用的資訊到模型裡面,AIC、BIC這兩種方法就是為了避免有過多的資訊導致 overfitting (意指模型過度配合原始資料表現,容易在出現新資料時模擬出較差的結果),所以它們設置了種 懲罰項 的概念,也就是說變數愈多的情況下,AIC、BIC的數值就會愈高。以模型的角度來說,是希望 在AIC、BIC相近的情況下,選擇模型變數較少的模型,以達到模型精簡化的原則,避免過度擬合 。」

「呼,呼,恩恩了解。」小博略為調整呼吸問道:「那這兩個有甚麼不同嗎?」

「AIC全名為Akaike’s Information Criteria比BIC(Bayesian Information Criteria)早了5年出現,雖然兩者都有懲罰項,但模型每增加一個變數時,BIC給的懲罰愈多,相對的它也引進了樣本數量(n)的概念進來,可以有效避免 高維度低樣本數 的資料發生過擬合情形,因此BIC也鼓勵放入更多的樣本來建立模型。」飛哥邊跑邊講。

小博邊跑邊思考:「原來是這個樣子啊,看來兩種模型判斷都有各的好處在,所以兩哥都一起參考的話,相信能選出不錯的模型出來。」,想著想著就跟在飛哥的身後按照自己的節奏跑完兩圈。

飛哥看了看手錶,「嗯,好,時間差不多要回去了,下次跟你講點有趣的新東西吧。」


資料參考:
https://codertw.com/%E7%A8%8B%E5%BC%8F%E8%AA%9E%E8%A8%80/39307/
http://www.differencebetween.net/miscellaneous/difference-between-aic-and-bic/
https://read01.com/zh-tw/zPjKQK.html#.X3swVGgzbIU


上一篇
[DAY 19] 章節2-13: 流感模型選擇-時間序列ARIMA(3/3) (R+解說)
下一篇
[DAY 21] 章節3-1: 黑盒子的秘密-機器學習與統計的不同?
系列文
飛哥與小博的30天-統計與機器學習成長日記30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言