「連続強化スケジュールにおける報酬の最適化手法」

3000文字

2023.12.26

関連キーワード
1. 連続強化学習 2. 強化スケジュール 3. 報酬最適化 4. 学習モデル 5. エージェント 6. ポリシー 7. 利得関数 8. 行動価値関数 9. 経験サンプル 10. モンテカルロ法 11. TD学習 12. Q学習 13. 政策勾配法 14. モデルベース学習 15. 関数近似 16. ディープラーニング 17. ニューラルネットワーク 18. 元強化学習 19. 報酬関数 20. 逆強化学習 21. トラベリングセールスマン問題 22. マルコフ決定過程 23. 強化学習の収束性 24. 最適制御理論 25. 確率的最適制御 26. アルゴリズム 27. オンライン学習 28. 探索と利用のトレードオフ 29. エキスプロレーションとエキスプロイテーション 30. 教師あり学習との比較