iT邦幫忙

reinforcement learning相關文章
共有 22 則文章
鐵人賽 AI/ ML & Data DAY 18

技術 Day17:強化學習在交易中的應用--基礎打底

在本節中,我們將探索強化學習(Reinforcement Learning,RL)的基本概念,以及如何將其應用於金融交易,以開發自適應的交易策略。我們將從理論出...

鐵人賽 AI/ ML & Data DAY 8

技術 [Day8] 探討強化學習的秘密 - 策略與價值

Day8 常見的強化學習算法 Value-Based 及 Policy-Based 深度強化學習(Deep Reinforcement Learning, DR...

鐵人賽 AI/ ML & Data DAY 7

技術 [Day7] 強化式學習初探討

Day7 強化學習 前言 還記得好幾年前甚麼都不懂的時候有看到AlphaGo戰勝最強棋王,那時候只知道AI好厲害,但根本不知道那是什麼東西,過了幾年開始接觸到了...

技術 啟動

"Many things prevent knowledge, including the obscurity of the subject and...

鐵人賽 AI/ ML & Data DAY 15
30 Days of AI Research 系列 第 16

技術 [Day 15] ESRL: Efficient Sampling-Based Reinforcement Learning for Sequence Generation

Paper link | Code link | AAAI 2024 整體想法 增強式學習(Reinforcement Learning,RL)在序列生成模...

鐵人賽 AI/ ML & Data DAY 14
30 Days of AI Research 系列 第 15

技術 [Day 14] Unveiling Fantastic Fact-Skeleton of LLMs via Ontology-Driven Reinforcement Learning

Paper link | Code link | AAAI 2024 整體想法 這項研究解決了與大型語言模型(LLMs)事實性評估相關的主要挑戰,並透過複雜...

鐵人賽 AI/ ML & Data DAY 13
30 Days of AI Research 系列 第 14

技術 [Day 13] TRAVEL: Tag-Aware Conversational FAQ Retrieval via Reinforcement Learning

Paper link | EMNLP 2023 整體想法 本研究使用強化學習 (RL) 並識別相關和不相關的標籤,以改進檢索常見問題 (FAQ) 的過程。...

鐵人賽 AI/ ML & Data DAY 12
30 Days of AI Research 系列 第 13

技術 [Day 12] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning

Paper link | Code link | EMNLP 2023 整體想法 本研究使用離線強化學習來提高開放式領域對話系統的質量和效用。 摘要 在開放...

鐵人賽 AI/ ML & Data DAY 11
30 Days of AI Research 系列 第 12

技術 [Day 11] Guiding Pretraining in Reinforcement Learning with Large Language Models

Paper link | Note link | Code link | ICML 2023 整體想法 本文提出了 ELLM 方法,該方法使用大型語言模型根...

鐵人賽 AI/ ML & Data DAY 10
30 Days of AI Research 系列 第 11

技術 [Day 10] Pre-Trained Language Models for Interactive Decision-Making

Paper link | Note link | Code link | NeurIPS 2022 整體想法 這項研究旨在使用語言模型作為代理,以預測強化學...

鐵人賽 AI/ ML & Data DAY 9
30 Days of AI Research 系列 第 10

技術 [Day 9] Reward Design with Language Models

Paper link | Note link | Code link | ICLR 2023 整體想法 這項研究探討了使用提示策略配合大型語言模型(LLM)...

技術 安裝lap gym

AMBF似乎停頓很久沒更新了,但Surrol一直有更新喔,請看倌記得去追蹤! 另外兩個新的是Surgical Gym跟lap gym.但因為我的硬體配備太差 (...

技術 安裝DEX

DEX也是香港中文大學發展的,它建立在SurRoL之上,跟SurRoL一樣,如果沒用dVRK硬體,不須裝dVRK.但他是用pytorch而非tensorflow...

技術 安裝SurRoL

SurRoL conda create -n surrol python=3.7 -y conda activate surrol git clone htt...

技術 dVRK在Unity上實作AR

dVRK在Unity上面的應用目前有2個,一個是dVRK-XR,另一個是UnityFlexML. 這都不用裝在Ubuntu上,也不用架dVRK,只要下載.zip...

鐵人賽 DevOps DAY 21

技術 [虛實整合]Unity Training Model with Python

在上篇文章提到Unity在train model使用的是Unity ML-Agents Toolkit,但我們之後會棄用,因為該Toolkit對於ML mode...

AI 高中生的自我學習 系列 第 27

技術 Day 27 - 強化學習 Reinforcement Learning(1)

馬可夫決策過程 Markov decision process MDP 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Proce...

AI 高中生的自我學習 系列 第 17

技術 Day 17 - 卷積神經網絡 CNN (2)- 戰國時代之版圖擴張

再看一次... 註:成功大學 連震杰教授 百家爭鳴 我們瞭解在1998 LeNet / 2012 AlexNet 之後,CNN相關技術及應用百家爭鳴1.Basi...

Towards Tensorflow 2.0 系列 第 29

技術 [Day-29] 增強式學習 (DQN) - 股票操作

昨天已經簡單介紹了 RL、以及 DQN。今天我們來實作增強式學習中的 Deep Q Network 預測股票 (TSMC,俗稱 十萬青年十萬肝,GG輪班救台灣)...

Towards Tensorflow 2.0 系列 第 28

技術 [Day-28] 增強式學習 (Reinforcement learning) 介紹

今天我們來聊聊 增強式學習 (Reinforcement learning),一個最近也很 “潮” 的演算法。 自從 Alpha Go擊敗人類後開始,大家開始重...

鐵人賽 AI & Data DAY 27

技術 [實戰系列] 使用 Keras 搭建一個 DQN 魔法陣(模型)

在理解 DQN 魔法陣的結構後,本篇來帶大家訓練 DQN 模型玩 Flappy Bird,引用參考的程式碼在此:https://github.com/yanpa...

鐵人賽 AI & Data DAY 25

技術 [魔法陣系列] Deep Q Network(DQN)之術式解析

「Deep Learning模型最近若干年的重要进展」一文提到深度學習分四個脈絡: CV/Tensor 生成模型 Sequence Learning Deep...