iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

1 Like 0 留言 48195 瀏覽

鐵人賽 Google Developers Machine Learning DAY 28

Towards Tensorflow 2.0 系列第 28 篇

技術 [Day-28] 增強式學習 (Reinforcement learning) 介紹

今天我們來聊聊增強式學習 (Reinforcement learning)，一個最近也很 “潮” 的演算法。自從 Alpha Go擊敗人類後開始，大家開始重...

Dan ‧ 2019-10-13

5 Like 0 留言 45763 瀏覽

鐵人賽 AI & Data DAY 25

英雄集結：深度學習的魔法使們系列第 25 篇

技術 [魔法陣系列] Deep Q Network（DQN）之術式解析

「Deep Learning模型最近若干年的重要进展」一文提到深度學習分四個脈絡： CV/Tensor 生成模型 Sequence Learning Deep...

莉森揪 ‧ 2018-11-09

0 Like 1 留言 16638 瀏覽

鐵人賽 Google Developers Machine Learning DAY 29

Towards Tensorflow 2.0 系列第 29 篇

技術 [Day-29] 增強式學習 (DQN) - 股票操作

昨天已經簡單介紹了 RL、以及 DQN。今天我們來實作增強式學習中的 Deep Q Network 預測股票 (TSMC，俗稱十萬青年十萬肝，GG輪班救台灣)...

Dan ‧ 2019-10-14

5 Like 0 留言 16434 瀏覽

鐵人賽 AI & Data DAY 27

英雄集結：深度學習的魔法使們系列第 27 篇

技術 [實戰系列] 使用 Keras 搭建一個 DQN 魔法陣（模型）

在理解 DQN 魔法陣的結構後，本篇來帶大家訓練 DQN 模型玩 Flappy Bird，引用參考的程式碼在此：https://github.com/yanpa...

莉森揪 ‧ 2018-11-11

1 Like 0 留言 8089 瀏覽

鐵人賽自我挑戰組

AI 高中生的自我學習系列第 27 篇

技術 Day 27 - 強化學習 Reinforcement Learning(1)

馬可夫決策過程 Markov decision process MDP 在概率論和統計學中，馬可夫決策過程（英語：Markov Decision Proce...

Harry Lin ‧ 2020-12-27

1 Like 0 留言 3831 瀏覽

鐵人賽 AI/ ML & Data DAY 18

打開就會 AI 與數據分析的投資理財術系列第 18 篇

技術 Day17：強化學習在交易中的應用--基礎打底

在本節中，我們將探索強化學習（Reinforcement Learning，RL）的基本概念，以及如何將其應用於金融交易，以開發自適應的交易策略。我們將從理論出...

zivzhong ‧ 2024-10-02

1 Like 0 留言 2936 瀏覽

鐵人賽 AI/ ML & Data DAY 8

深度學習的學習之旅：從理論到實作系列第 8 篇

技術 [Day8] 探討強化學習的秘密 - 策略與價值

Day8 常見的強化學習算法 Value-Based 及 Policy-Based 深度強化學習（Deep Reinforcement Learning, DR...

bin ‧ 2024-09-16 ‧團隊NUTC imac

1 Like 0 留言 2387 瀏覽

鐵人賽 AI/ ML & Data DAY 7

深度學習的學習之旅：從理論到實作系列第 7 篇

技術 [Day7] 強化式學習初探討

Day7 強化學習前言還記得好幾年前甚麼都不懂的時候有看到AlphaGo戰勝最強棋王，那時候只知道AI好厲害，但根本不知道那是什麼東西，過了幾年開始接觸到了...

bin ‧ 2024-09-15 ‧團隊NUTC imac

0 Like 0 留言 2307 瀏覽

技術安裝SurRoL

SurRoL conda create -n surrol python=3.7 -y conda activate surrol git clone htt...

jaujie ‧ 2023-07-23

0 Like 0 留言 2137 瀏覽

技術安裝DEX

DEX也是香港中文大學發展的,它建立在SurRoL之上,跟SurRoL一樣,如果沒用dVRK硬體,不須裝dVRK.但他是用pytorch而非tensorflow...

jaujie ‧ 2023-07-23

0 Like 0 留言 2016 瀏覽

鐵人賽 DevOps DAY 21

IoT Cloud Computing on robotic vehicle 系列第 21 篇

技術 [虛實整合]Unity Training Model with Python

在上篇文章提到Unity在train model使用的是Unity ML-Agents Toolkit，但我們之後會棄用，因為該Toolkit對於ML mode...

Ivan ‧ 2022-10-06 ‧團隊台南巷弄美食獵人

1 Like 0 留言 1716 瀏覽

鐵人賽自我挑戰組

AI 高中生的自我學習系列第 17 篇

技術 Day 17 - 卷積神經網絡 CNN (2)- 戰國時代之版圖擴張

再看一次... 註:成功大學連震杰教授百家爭鳴我們瞭解在1998 LeNet / 2012 AlexNet 之後，CNN相關技術及應用百家爭鳴1.Basi...

Harry Lin ‧ 2020-12-17

0 Like 0 留言 1194 瀏覽

鐵人賽 AI/ ML & Data DAY 9

30 Days of AI Research 系列第 10 篇

技術 [Day 9] Reward Design with Language Models

Paper link | Note link | Code link | ICLR 2023 整體想法這項研究探討了使用提示策略配合大型語言模型（LLM）...

whoami ‧ 2024-08-09

0 Like 0 留言 1079 瀏覽

技術 dVRK在Unity上實作AR

dVRK在Unity上面的應用目前有2個,一個是dVRK-XR,另一個是UnityFlexML. 這都不用裝在Ubuntu上,也不用架dVRK,只要下載.zip...

jaujie ‧ 2023-05-15

0 Like 0 留言 895 瀏覽

技術 dVRL...但不會動

dVRL ,我在Ubuntu 20.04版沒有成功,改在Ubuntu 18.04,先裝GPU driver跟CUDA,CuDNN,之後 sudo apt-get...

jaujie ‧ 2025-06-08

0 Like 0 留言 778 瀏覽

鐵人賽 AI/ ML & Data DAY 14

30 Days of AI Research 系列第 15 篇

技術 [Day 14] Unveiling Fantastic Fact-Skeleton of LLMs via Ontology-Driven Reinforcement Learning

Paper link | Code link | AAAI 2024 整體想法這項研究解決了與大型語言模型（LLMs）事實性評估相關的主要挑戰，並透過複雜...

whoami ‧ 2024-08-14

3 Like 0 留言 764 瀏覽

鐵人賽佛心分享-SideProject30 DAY 1

DeltaPathogen：國產雙人不對稱抽象棋「疫途」之桌遊 AI 實戰系列第 1 篇

技術啟動

"Many things prevent knowledge, including the obscurity of the subject and...

高魁良 ‧ 2024-09-01 ‧團隊晶心壯士III: ALcHemist

0 Like 0 留言 675 瀏覽

鐵人賽 AI/ ML & Data DAY 13

30 Days of AI Research 系列第 14 篇

技術 [Day 13] TRAVEL: Tag-Aware Conversational FAQ Retrieval via Reinforcement Learning

Paper link ｜ EMNLP 2023 整體想法本研究使用強化學習 (RL) 並識別相關和不相關的標籤，以改進檢索常見問題 (FAQ) 的過程。...

whoami ‧ 2024-08-13

0 Like 0 留言 672 瀏覽

技術安裝lap gym

AMBF似乎停頓很久沒更新了,但Surrol一直有更新喔,請看倌記得去追蹤! 另外兩個新的是Surgical Gym跟lap gym.但因為我的硬體配備太差 (...

jaujie ‧ 2024-05-15

0 Like 0 留言 671 瀏覽

鐵人賽 AI/ ML & Data DAY 15

30 Days of AI Research 系列第 16 篇

技術 [Day 15] ESRL: Efficient Sampling-Based Reinforcement Learning for Sequence Generation

Paper link | Code link | AAAI 2024 整體想法增強式學習（Reinforcement Learning，RL）在序列生成模...

whoami ‧ 2024-08-15

0 Like 0 留言 623 瀏覽

鐵人賽 AI/ ML & Data DAY 11

30 Days of AI Research 系列第 12 篇

技術 [Day 11] Guiding Pretraining in Reinforcement Learning with Large Language Models

Paper link | Note link | Code link | ICML 2023 整體想法本文提出了 ELLM 方法，該方法使用大型語言模型根...

whoami ‧ 2024-08-11

0 Like 0 留言 578 瀏覽

鐵人賽 AI/ ML & Data DAY 10

30 Days of AI Research 系列第 11 篇

技術 [Day 10] Pre-Trained Language Models for Interactive Decision-Making

Paper link | Note link | Code link | NeurIPS 2022 整體想法這項研究旨在使用語言模型作為代理，以預測強化學...

whoami ‧ 2024-08-10

0 Like 0 留言 550 瀏覽

鐵人賽 AI/ ML & Data DAY 12

30 Days of AI Research 系列第 13 篇

技術 [Day 12] Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning

Paper link | Code link | EMNLP 2023 整體想法本研究使用離線強化學習來提高開放式領域對話系統的質量和效用。摘要在開放...

whoami ‧ 2024-08-12