一个拥有K根拉杆的老虎机,每一根都有一个奖励分布R\mathcal{R}R。每次拉动就可以获得一个奖励r。在奖励概率分布未知的情况下,在T次操作下获取尽可能高的累计奖励。
多壁老虎机可以表述为一个动作元组<A\mathcal{A}A, R\mathcal{R}R>
则T时间段内的累积奖励为max∑t=1Trtmax\sum_{t=1}^{T} r_{t}max∑t=1Trt ~R(⋅∣at)\mathcal{R}(\cdot |a_{t})R(⋅∣at)
← attention Basic Concepts→