multi-armed bandit
多臂老虎机 / multi-armd bandit
一个拥有K根拉杆的老虎机,每一根都有一个奖励分布R。每次拉动就可以获得一个奖励r。在奖励概率分布未知的情况下,在T次操作下获取尽可能高的累计奖励。
形式化表述
多壁老虎机可以表述为一个动作元组<A, R>
- A为集合,若一共有K根拉杆,则动作的集合为{a1,ai,ak}
- R为奖励概率分布,每一根对应概率分布R(r∣a)
则T时间段内的累积奖励为max∑t=1Trt ~R(⋅∣at)
一个拥有K根拉杆的老虎机,每一根都有一个奖励分布R。每次拉动就可以获得一个奖励r。在奖励概率分布未知的情况下,在T次操作下获取尽可能高的累计奖励。
多壁老虎机可以表述为一个动作元组<A, R>
则T时间段内的累积奖励为max∑t=1Trt ~R(⋅∣at)