multi-armed bandit

约 195 字小于 1 分钟

2024-05-07

多臂老虎机 / multi-armd bandit

一个拥有K根拉杆的老虎机，每一根都有一个奖励分布 $\mathcal{R}$ 。每次拉动就可以获得一个奖励r。在奖励概率分布未知的情况下，在T次操作下获取尽可能高的累计奖励。

多壁老虎机可以表述为一个动作元组< $\mathcal{A}$ , $\mathcal{R}$ >

则T时间段内的累积奖励为 $max\sum_{t=1}^{T} r_{t}$ ~ $\mathcal{R}(\cdot |a_{t})$