ultrafeedback-extended
收藏Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/ltg/ultrafeedback-extended
下载链接
链接失效反馈官方服务:
资源简介:
UltraFeedback Extended 是 UltraFeedback 数据集的扩展版本,旨在通过增加每个指令的响应数量和引入多样化的评分模型来增强数据集。该数据集包含 63,875 条指令,来源于 EvolInstruct、ShareGPT、Flan、TruthfulQA、UltraChat 和 FalseQA。扩展内容包括:1) 每个指令对应10个模型生成的响应(原为4个),使用了更多近期和多样化的语言模型;2) 由10个不同的评分模型(而非仅GPT-4)独立对每个响应进行1-10分的评分。生成模型和评分模型完全独立且多样化,适用于研究偏好聚合、奖励模型训练以及评分模型多样性对对齐效果的影响。数据集提供两个子集:`scores_only`(仅含评分)和 `full_feedback`(含评分及评分理由)。数据格式包括指令ID、来源、指令文本、模型列表和响应对象,每个响应对象包含模型名称、生成文本、评分及可能的原始UltraFeedback注释。
提供机构:
Language Technology Group (University of Oslo)
创建时间:
2026-03-25
原始信息汇总
UltraFeedback Extended 数据集概述
数据集基本信息
- 数据集名称: UltraFeedback Extended
- 托管地址: https://huggingface.co/datasets/ltg/ultrafeedback-extended
- 任务类别: 文本生成
- 语言: 英语
- 标签: 偏好、DPO、UltraFeedback
数据集配置
- scores_only (默认配置): 每个标注仅包含整数分数。
- full_feedback: 每个标注包含分数和来自评审模型的完整文本反馈。
数据集概述
该数据集是 UltraFeedback 的扩展版本,主要进行了两项扩展:
- 响应模型数量增加: 每个指令对应10个模型响应(原版为4个),使用了更多近期且多样化的LLM。
- 评审模型多样化: 使用10个评审模型(替代单一的GPT-4),每个模型独立为每个响应给出1-10分的评分。
生成模型组和评审模型组完全不相交,且两组模型均具有多样性(涵盖不同的模型系列、规模和训练方法)。这使得该数据集适用于研究偏好聚合、奖励模型训练以及评审多样性对对齐的影响。所有使用的模型均为开放权重,部分模型完全开源。
数据集包含63,875条指令,来源与UltraFeedback相同(EvolInstruct, ShareGPT, Flan, TruthfulQA, UltraChat, FalseQA)。
响应模型(生成器)
- 01-ai/Yi-6B-Chat
- HuggingFaceTB/SmolLM-1.7B-Instruct
- Qwen/Qwen3-14B
- deepseek-ai/deepseek-llm-7b-chat
- google/gemma-3-4b-it
- internlm/internlm3-8b-instruct
- mistralai/Ministral-8B-Instruct-2410
- mistralai/Mixtral-8x7B-Instruct
- google/gemma-3-12b-it
- swiss-ai/Apertus-8B-Instruct-2509
- original_ultrafeedback_response(从原始UltraFeedback中随机采样的响应)
评审模型
- allenai/Olmo-3.1-32B-Instruct
- meta-llama/Llama-3.3-70B-Instruct
- meta-llama/Llama-4-Scout-17B-16E-Instruct
- utter-project/EuroLLM-22B-Instruct-2512
- zai-org/GLM-4.5-Air
- LumiOpen/Llama-Poro-2-70B-Instruct
- openai/gpt-oss-120b
- tokyotech-llm/GPT-OSS-Swallow-120B-RL-v0.1
- nvidia/NVLM-D-72B
- CohereLabs/aya-expanse-32b
数据格式
每个数据示例包含以下字段:
instruction_id: 唯一指令标识符(来自UltraFeedback)source: 原始数据集来源instruction: 提示/指令文本models: 响应模型名称列表completions: 响应对象列表
每个completions中的条目包含:
model: 生成此响应的模型名称response: 生成的文本annotations: 映射评审模型名称到{"score": int}(或在full_feedback配置中为{"score": int, "feedback": str})的字典ultrafeedback_annotations: 来自UltraFeedback的原始GPT-4标注(如果可用)



