gp02-mcgill/ultrafeedback_binarised_rnd_max

Name: gp02-mcgill/ultrafeedback_binarised_rnd_max
Creator: gp02-mcgill
Published: 2025-01-31 17:37:03
License: 暂无描述

Hugging Face2025-01-31 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/gp02-mcgill/ultrafeedback_binarised_rnd_max

下载链接

链接失效反馈

官方服务：

资源简介：

ultrafeedback_binarised_rnd_min是一个成对偏好的数据集，设计用于训练需要二元偏好标签的模型。它源自UltraFeedback数据集，该数据集提供了用于提升语言模型质量的高质量反馈。这个数据集适用于涉及从偏好中学习的任务，比如基于人类反馈的强化学习（RLHF）和基于偏好的排名。

ultrafeedback_binarised_rnd_min is a pairwise preference dataset designed for training models that require binary preference labels. It is derived from the UltraFeedback dataset, which provides high-quality feedback for improving language models. The dataset is useful for tasks involving learning from preferences, such as reinforcement learning from human feedback (RLHF) and preference-based ranking.

提供机构：

gp02-mcgill

5,000+

优质数据集

54 个

任务类型

进入经典数据集