quanshr/mtmc-rlhf

Name: quanshr/mtmc-rlhf
Creator: quanshr
Published: 2024-05-10 07:34:30
License: 暂无描述

Hugging Face2024-05-10 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/quanshr/mtmc-rlhf

下载链接

链接失效反馈

官方服务：

资源简介：

`mtmc-rlhf`（多任务多能力RLHF）数据集主要包含中文文本提示，这些提示提交给大型语言模型API，并由注释者精心制作了一小部分。每个样本代表用户与语言模型之间的多轮会话，并带有类别标签。会话中的最终查询有多个不同的响应，以及注释者排序的偏好等级。提示非常多样化，主要分为五类：角色扮演、闲聊、主观知识问答、客观知识问答和文本创作，还有一小部分其他类别（包括逻辑推理、数学计算、代码理解和生成、翻译等）。数据集分为训练集和测试集，测试集比例为0.2。数据集结构包括标签、用户查询列表、语言模型响应列表、最终查询的多个响应列表以及注释者排序的偏好等级。

提供机构：

quanshr

原始信息汇总

mtmc-rlhf 数据集概述

基本信息

语言: 中文
许可: Apache 2.0
任务类别: 文本生成
数据规模: 10K<n<100K

数据集描述

mtmc-rlhf（多任务多能力强化学习人类反馈）数据集主要包含向大型语言模型API提交的文本提示，以及一小部分由标注人员精心设计的提示。每个样本代表用户与语言模型之间的多轮对话，并附有类别标签。每个会话的最终查询有多个不同的响应，以及标注人员排序的相应偏好等级。

数据分类

提示非常多样化，主要分为五大类：角色扮演、闲聊、主观知识问答、客观知识问答和文本创作，以及一小部分其他类别（包括逻辑推理、数学计算、代码理解和生成、翻译等）。

数据集加载

bash from datasets import load_dataset

dataset = load_dataset("quanshr/mtmc-rlhf")

数据集分割

训练集和测试集是独立同分布的，测试集比例为0.2。

数据结构

label: 会话类别
src: 每轮用户查询的列表
tgt: 除最后一轮外，每轮语言模型响应的列表
response: 最后一轮查询的多个不同响应的列表
rank: 标注人员排序的response的人类偏好排名

引用

如果在研究中使用该数据集，请引用相关论文：

@misc{quan2024dmoerm, title={DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling}, author={Shanghaoran Quan}, year={2024}, eprint={2403.01197}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集