北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

2023-08-31 18:00:42 站长之家网络整理3

生活网8月31日消息:最近，北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程，总结了原理，代码以及踩坑与解决方案。

在训练奖励模型时，作者使用Cohere提供的问答数据，构造了2万个优质答案和劣质答案的组合，通过排序任务训练奖励模型给答案打分。在强化学习阶段，作者采用Actor-Critic框架，分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

在模型训练过程中，作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能，如归一化优势、增加策略熵、缩放奖励等。

通过解决 above 问题，作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍，对相关研究具有很好的参考价值。（感兴趣的可以点此查看原文）

--结束END--

举报投诉请发送至: 邮箱/1585958358@qq.com QQ/

更多>最新的资讯

抖音16级粉丝灯牌要多	抖音小店认证怎么开店
抖音号如何快速到1000	抖音带货口碑分和商家