「強化学習における報酬関数の最適化とその応用」

2000文字

2024.01.06

関連キーワード
1. 強化学習 2. 報酬関数 3. 最適化 4. 応用 5. マルコフ決定過程 6. 価値関数 7. 方策 8. モデルベース 9. モデルフリー 10. 逆強化学習 11. モンテカルロ法 12. TD学習 13. Q学習 14. エピソード 15. エージェント 16. 環境 17. 状態 18. 行動 19. 経験 20. 強化信号 21. 時間割引 22. 探索と利用 23. 強化学習の収束 24. 関数近似 25. ニューラルネットワーク 26. ディープラーニング 27. 軽量化 28. 深層強化学習 29. バッチ学習 30. パラメータチューニング