8.3.2 强化学习公式