関連キーワード
1. 即時強化学習
2. 行動選択
3. 最適化手法
4. 比較と評価
5. モデルベース強化学習
6. モデルフリー強化学習
7. 価値ベース強化学習
8. 方策ベース強化学習
9. Q学習
10. SARSA
11. 同期更新
12. 非同期更新
13. 確率的方策
14. ε-グリーディ方策
15. UCB1
16. Thompson sampling
17. 上限信念更新法
18. モンテカルロ法
19. ターゲットポリシー
20. 行動価値関数
21. 状態価値関数
22. 割引率
23. 探索と利用のバランス
24. 収束性
25. 多腕バンディット問題
26. 最適行動選択
27. 評価関数
28. エージェント
29. 状態空間
30. 報酬関数