「即時強化における行動選択の最適化手法の比較と評価」

2000文字

2023.12.29

関連キーワード
1. 即時強化学習 2. 行動選択 3. 最適化手法 4. 比較と評価 5. 強化学習アルゴリズム 6. 強化信号 7. Q学習 8. SARSA 9. モンテカルロ法 10. temporal difference 11. Q関数 12. エージェント 13. ベルマン方程式 14. ε-greedy 15. ポリシー反復 16. 動的計画法 17. 割引率 18. 学習率 19. グリーディングポリシー 20. モデルフリー手法 21. モデルベース手法 22. オンポリシー 23. オフポリシー 24. パラメータチューニング 25. 状態空間 26. 行動空間 27. ベルマンオペレータ 28. 実験設定 29. 環境モデル 30. 初期化方法