前言 終於到了我們強化學習的最終章節了,今天就會把我們整個訓練完成囉,那廢話不多說,直接來看我們的程式! 程式 run功能 在這邊我們定義了一個運行的函數,...
前言 昨天提到了一個Q-learning中的策略 Epsilon-greedy 策略,那這個東西到底是甚麼呢?他跟Q-learning有甚麼關係呢?今天的文章就...
前言 昨天介紹了有關gymnasium的一些基礎概念,而今天我們會一步一步來建立我們的Frozen Lake。這篇文章寫得有點亂,自己一時之間也沒有想到更好的改...
Day9 當強化學習遇上gymnasium 前言 在前幾篇的文章中,介紹了強化學習(Reinforcement Learning, RL)的基本概念和原理,也有...
Day8 常見的強化學習算法 Value-Based 及 Policy-Based 深度強化學習(Deep Reinforcement Learning, DR...
Day7 強化學習 前言 還記得好幾年前甚麼都不懂的時候有看到AlphaGo戰勝最強棋王,那時候只知道AI好厲害,但根本不知道那是什麼東西,過了幾年開始接觸到了...
強化學習概論 讓智慧型代理人/智慧體/智能體(intelligent agent)通過與環境的交互學習如何做出決策,以最大化一個獎勵信號。它通常涉及到Agent...
進到AI世界的第四天,經過歷史老師和地理老師摧殘後,終於輪到生物老師來教學啦! 但是你看了一下黑板上的描畫,有的由一堆相連的圈圈組成,像一串葡萄,有些又像是高聳...
監督和非監督式學習使用了所有的資料來學習進行預測,但是在強化學習中,並非所有資料從一開始就看得見,而是透過摸索的形式和環境互動取得經驗,從錯誤中學習找到一個長期...
當我們了解了 AI 的各種手法,就可以知道哪些想法在 AI 技術上是可行的,也能針對我們的目標知道需要什麼資料和要使用什麼演算法來建立模型(Model)。 資...
機器學習簡介 (Machine Learning, ML) 機器學習是一種透過資料、特徵擷取以及訓練的方式,來幫助電腦能夠學習並且辨認出特定領域的知識。而機器學...
馬可夫決策過程 Markov decision process MDP 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Proce...
因為自己不太懂,所以就整理了一下,這之間的關係。 人工智慧(Artificial Intelligence,AI) 指由人製造出來的機器,所表現出來的智慧型。...