five

quanshr/mtmc-rlhf

收藏
Hugging Face2024-05-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/quanshr/mtmc-rlhf
下载链接
链接失效反馈
官方服务:
资源简介:
`mtmc-rlhf`(多任务多能力RLHF)数据集主要包含中文文本提示,这些提示提交给大型语言模型API,并由注释者精心制作了一小部分。每个样本代表用户与语言模型之间的多轮会话,并带有类别标签。会话中的最终查询有多个不同的响应,以及注释者排序的偏好等级。提示非常多样化,主要分为五类:角色扮演、闲聊、主观知识问答、客观知识问答和文本创作,还有一小部分其他类别(包括逻辑推理、数学计算、代码理解和生成、翻译等)。数据集分为训练集和测试集,测试集比例为0.2。数据集结构包括标签、用户查询列表、语言模型响应列表、最终查询的多个响应列表以及注释者排序的偏好等级。
提供机构:
quanshr
原始信息汇总

mtmc-rlhf 数据集概述

基本信息

  • 语言: 中文
  • 许可: Apache 2.0
  • 任务类别: 文本生成
  • 数据规模: 10K<n<100K

数据集描述

mtmc-rlhf(多任务多能力强化学习人类反馈)数据集主要包含向大型语言模型API提交的文本提示,以及一小部分由标注人员精心设计的提示。每个样本代表用户与语言模型之间的多轮对话,并附有类别标签。每个会话的最终查询有多个不同的响应,以及标注人员排序的相应偏好等级。

数据分类

提示非常多样化,主要分为五大类:角色扮演、闲聊、主观知识问答、客观知识问答和文本创作,以及一小部分其他类别(包括逻辑推理、数学计算、代码理解和生成、翻译等)。

数据集加载

bash from datasets import load_dataset

dataset = load_dataset("quanshr/mtmc-rlhf")

数据集分割

训练集和测试集是独立同分布的,测试集比例为0.2。

数据结构

  • label: 会话类别
  • src: 每轮用户查询的列表
  • tgt: 除最后一轮外,每轮语言模型响应的列表
  • response: 最后一轮查询的多个不同响应的列表
  • rank: 标注人员排序的response的人类偏好排名

引用

如果在研究中使用该数据集,请引用相关论文:

@misc{quan2024dmoerm, title={DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling}, author={Shanghaoran Quan}, year={2024}, eprint={2403.01197}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作