quanshr/mtmc-rlhf
收藏Hugging Face2024-05-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/quanshr/mtmc-rlhf
下载链接
链接失效反馈官方服务:
资源简介:
`mtmc-rlhf`(多任务多能力RLHF)数据集主要包含中文文本提示,这些提示提交给大型语言模型API,并由注释者精心制作了一小部分。每个样本代表用户与语言模型之间的多轮会话,并带有类别标签。会话中的最终查询有多个不同的响应,以及注释者排序的偏好等级。提示非常多样化,主要分为五类:角色扮演、闲聊、主观知识问答、客观知识问答和文本创作,还有一小部分其他类别(包括逻辑推理、数学计算、代码理解和生成、翻译等)。数据集分为训练集和测试集,测试集比例为0.2。数据集结构包括标签、用户查询列表、语言模型响应列表、最终查询的多个响应列表以及注释者排序的偏好等级。
提供机构:
quanshr
原始信息汇总
mtmc-rlhf 数据集概述
基本信息
- 语言: 中文
- 许可: Apache 2.0
- 任务类别: 文本生成
- 数据规模: 10K<n<100K
数据集描述
mtmc-rlhf(多任务多能力强化学习人类反馈)数据集主要包含向大型语言模型API提交的文本提示,以及一小部分由标注人员精心设计的提示。每个样本代表用户与语言模型之间的多轮对话,并附有类别标签。每个会话的最终查询有多个不同的响应,以及标注人员排序的相应偏好等级。
数据分类
提示非常多样化,主要分为五大类:角色扮演、闲聊、主观知识问答、客观知识问答和文本创作,以及一小部分其他类别(包括逻辑推理、数学计算、代码理解和生成、翻译等)。
数据集加载
bash from datasets import load_dataset
dataset = load_dataset("quanshr/mtmc-rlhf")
数据集分割
训练集和测试集是独立同分布的,测试集比例为0.2。
数据结构
- label: 会话类别
- src: 每轮用户查询的列表
- tgt: 除最后一轮外,每轮语言模型响应的列表
- response: 最后一轮查询的多个不同响应的列表
- rank: 标注人员排序的
response的人类偏好排名
引用
如果在研究中使用该数据集,请引用相关论文:
@misc{quan2024dmoerm, title={DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling}, author={Shanghaoran Quan}, year={2024}, eprint={2403.01197}, archivePrefix={arXiv}, primaryClass={cs.CL} }



