「強化学習における報酬関数の設計と最適化」

2000文字

2023.12.23

関連キーワード
1. 強化学習 2. 報酬関数 3. 設計 4. 最適化 5. マルコフ決定過程 6. エージェント 7. 状態空間 8. 行動空間 9. ベルマン方程式 10. 学習アルゴリズム 11. Q関数 12. 価値関数 13. ポリシー 14. モデルベース 15. モデルフリー 16. 報酬の定式化 17. バンディット問題 18. グリーディ法 19. 探索と利用のトレードオフ 20. 行動価値法 21. 形式的構造 22. 弱い反応性 23. 高次元状態空間 24. 非線形最適化 25. 近似法 26. モンテカルロ法 27. TD学習 28. 非線形関数近似 29. 環境モデルの学習 30. 強化学習の応用