聯邦強化學習(FRL)使用多個代理(Agent)聯合建構,在不共享原始資料的情況下,產生更好的決策。
強化學習(RL)應用於許多實際決策中,但強化學習(RL)經常遭受樣本效率低下的問題。
當強化學習(RL)用於提供決策支持時,它的性能受到一個人擁有的資料集樣本大小的限制。
直接的解決方案是多個強化學習(RL)代理(Agent)共享他們的資料,共同建構一個單一代理(Agent)。
但是在許多應用中,強化學習(RL)資料可能包含敏感訊息,因此禁止共享。
聯邦強化學習(FRL),目的在從多個方面聯合構建更好的策略,各個代理(Agent)不需要他們分享他們的原始軌跡。
聯邦強化學習(FRL)用於解決強化學習(RL)在實際系統中的樣本效率低下問題,例如:自動駕駛、物聯網設備控制優化、和資源網路管理。
現有的聯邦強化學習(FRL)框架不具備理論上的收斂保證,因此缺乏對實際聯邦強化學習(FRL)應用的取樣效率的保證,這是一個嚴重的缺點。