Multi-turn RLHF Dataset

arXiv2025-09-30 收录

下载链接：

https://github.com/ZhaolinGao/REFUEL/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集旨在评估在多轮强化学习从人类反馈（RLHF）环境中REFUEL政策优化方法的有效性。它包含了自生成数据，以解决多轮RLHF中的协变量偏移问题。该数据集适用于多轮对话模拟任务。

This dataset is designed to evaluate the effectiveness of the REFUEL policy optimization method in a multi-turn Reinforcement Learning from Human Feedback (RLHF) environment. It contains self-generated data to resolve the covariate shift issue in multi-turn RLHF. This dataset is applicable to multi-turn dialogue simulation tasks.

5,000+

优质数据集

54 个

任务类型

进入经典数据集