大家好,我是毛毛。
今天是Day 11,昨天介紹了ILP和Heuristic algorithm。
本來規劃今天要來看機器學習與深度學習,由於合在一起講篇幅有點太長,因此深度學習就改到明天在放。
所以今天要看的是Machine Learning ~ ヽ(✿゚▽゚)ノ
是人工智慧發展的一環。指的是讓機器「自主學習」並「增強」的演算法。透過迴歸分析,機器能從一堆數據中找出規律並做出預測,當輸入的數據越來越多,演算法也會持續的調整並做出更精準的分析。
使用機器學習最主要是希望能從蒐集的資料中找出有用的規則,並透過找到的規律再去對未來的資料作預測。
機器學習的類型有下列幾種:
強化學習其實就是在訓練一個Agent,讓它從錯誤中學習,所以一開始這個Agent可能會一直失敗,但是在經過了幾次的失敗之後,這個Agent的表現就會變得很好了。
上圖為強化學習的概念圖
從上圖可以看到有一個Agent,它會根據從環境接收到的State去選擇當下最好的動作(Action),再去接收環境對於剛剛做出的動作提供的反饋,也就是Reward。透過這樣的方法找出一個最好的Action,可以讓得到的Reward最多! (๑´ڡ`๑)
Markov Decision Process(MDP),中文稱馬可夫決策過程,這邊要提到一下MDP,是因為在強化學習中要去估計下一個狀態Sn+1,得把S1~Sn的狀態全都考慮到,這樣會導致模型太大,因此這時候MDP的觀念就有用了。
MDP的一個重要觀念:未來只取決於當前
透過這個觀念,可以將剛剛的下一個狀態Sn+1假設只跟現在的狀態有關係。
今天到這啦~
大家明天見