liavonpenn/Processed_UltraFeedback_Binarized

Name: liavonpenn/Processed_UltraFeedback_Binarized
Creator: liavonpenn
Published: 2025-11-12 14:06:31
License: 暂无描述

Hugging Face2025-11-12 更新2025-11-15 收录

下载链接：

https://hf-mirror.com/datasets/liavonpenn/Processed_UltraFeedback_Binarized

下载链接

链接失效反馈

官方服务：

资源简介：

UltraFeedback Binarized数据集是一个为对齐大型语言模型（LLMs）而设计的高质量偏好数据集，通过偏好学习和从人类反馈中强化学习（RLHF）来实现。每个记录包含一个提示和两个候选回答（选择的和被拒绝的），以及表示人类或模型偏好的质量分数。这个处理后的版本仅提取了助手的消息文本，以便于模型训练或评估。

The UltraFeedback Binarized Dataset is a high-quality preference dataset designed for aligning large language models (LLMs) through preference learning and reinforcement learning from human feedback (RLHF). Each record contains a prompt and two candidate responses — chosen and rejected — along with quality scores indicating human or model-based preferences. This processed version extracts only the assistant’s message text for easier use in model training or evaluation.

提供机构：

liavonpenn

5,000+

优质数据集

54 个

任务类型

进入经典数据集