8.2.3 RLHF问题分析