「即時強化における行動選択の最適化手法の比較と評価」

2000文字

2024.02.10

関連キーワード
1. 即時強化学習 2. 行動選択 3. 最適化手法 4. 比較と評価 5. モデルベース強化学習 6. モデルフリー強化学習 7. 価値ベース強化学習 8. 方策ベース強化学習 9. Q学習 10. SARSA 11. 同期更新 12. 非同期更新 13. 確率的方策 14. ε-グリーディ方策 15. UCB1 16. Thompson sampling 17. 上限信念更新法 18. モンテカルロ法 19. ターゲットポリシー 20. 行動価値関数 21. 状態価値関数 22. 割引率 23. 探索と利用のバランス 24. 収束性 25. 多腕バンディット問題 26. 最適行動選択 27. 評価関数 28. エージェント 29. 状態空間 30. 報酬関数