five

Dolci-DPO-Model-Response-Pool

收藏
Hugging Face2025-12-12 更新2025-12-14 收录
下载链接:
https://huggingface.co/datasets/allenai/Dolci-DPO-Model-Response-Pool
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Dolci DPO模型响应池,包含Olmo 3 DPO模型池中每个模型多达250万条响应,总计约7100万条提示-响应对。提示来源于allenai/Dolci-Instruct-SFT和allenai/WildChat数据集。数据集结构包括多个配置,每个模型有独立的配置和响应数据。数据集的架构包括唯一标识符、来源数据集、输入提示、模型响应和模型名称等字段。此外,还提供了跨模型比较的方法和覆盖统计信息,显示不同模型的响应数量。数据集采用ODC-BY许可证,适用于研究和教育用途。
提供机构:
Allen Institute for AI
创建时间:
2025-12-10
原始信息汇总

Dolci DPO Model Response Pool 数据集概述

数据集基本信息

  • 数据集名称:Dolci DPO Model Response Pool
  • 发布机构:Allen Institute for AI (AllenAI)
  • 许可证:ODC-BY
  • 主要语言:英语 (en)
  • 数据规模:100B < n < 1T
  • 标签:llm-responses, model-comparison, synthetic
  • 数据格式:Parquet

数据集内容与结构

该数据集包含用于Olmo 3 DPO模型池中每个模型的响应,每个模型最多包含250万个响应,总计约7100万个提示-响应对。

数据来源

  • 提示主要来源于数据集:allenai/Dolci-Instruct-SFT
  • 额外数据来源于数据集:allenai/WildChat

配置与模型

数据集包含29个不同的模型配置,每个模型对应一个独立的配置。默认配置为 gemma3-4b

可用模型系列与配置

模型系列 配置名称
Gemma 3 gemma3-4b, gemma3-12b, gemma3-27b
GPT gpt-20b, gpt-120b, gpt-4.1-2025-04-14
Mistral mistral-24b
OLMo 2 olmo2-1b, olmo2-7b, olmo2-13b, olmo2-32b
Phi 4 phi4-mini-instruct
Qwen 3 (无推理) qwen3-no_reasoning-0.6b, qwen3-no_reasoning-1.7b, qwen3-no_reasoning-4b, qwen3-no_reasoning-8b, qwen3-no_reasoning-14b, qwen3-no_reasoning-30b-3a, qwen3-no_reasoning-32b
Qwen 3 (推理) qwen3-reasoning-1.7b, qwen3-reasoning-4b, qwen3-reasoning-8b, qwen3-reasoning-14b, qwen3-reasoning-30b-3a, qwen3-reasoning-32b
Qwen 3 Coder qwen3-coder-no_reasoning-30b-3a
QwQ qwq-32b
Yi 1.5 yi-9b, yi-34b

数据模式

每个配置包含以下字段:

字段 类型 描述
custom_id string 提示的唯一标识符(跨模型共享)
dataset string 提示的来源数据集
prompt string 输入的提示
response string 模型的响应
model string 模型名称

数据覆盖统计

并非每个模型都对每个提示生成了响应。数据集包含总计 2,500,999 个唯一提示。

各模型响应数量概览

模型 响应数量
gpt-4.1-2025-04-14 2,500,999
qwen3-coder-no_reasoning-30b-3a 2,500,999
qwen3-no_reasoning-30b-3a 2,500,999
qwen3-no_reasoning-4b 2,500,999
qwen3-reasoning-30b-3a 2,500,999
qwen3-reasoning-4b 2,500,999
phi4-mini-instruct 2,500,997
gemma3-12b 2,500,980
qwen3-no_reasoning-0.6b 2,500,075
qwen3-no_reasoning-14b 2,500,075
qwen3-no_reasoning-32b 2,500,075
mistral-24b 2,499,303
qwen3-no_reasoning-1.7b 2,499,075
qwen3-no_reasoning-8b 2,499,075
gpt-120b 2,498,450
gpt-20b 2,495,496
yi-34b 2,492,148
yi-9b 2,492,148
olmo2-13b 2,486,926
olmo2-1b 2,486,926
olmo2-32b 2,486,926
olmo2-7b 2,486,926
qwen3-reasoning-32b 2,460,620
qwq-32b 2,453,635
gemma3-4b 2,451,039
gemma3-27b 2,406,872
qwen3-reasoning-1.7b 2,278,035
qwen3-reasoning-8b 2,233,012
qwen3-reasoning-14b 1,993,762

使用许可与声明

  • 本数据集根据 ODC-BY 许可证授权。
  • 旨在根据 Ai2 的《负责任使用指南》(https://allenai.org/responsible-use) 用于研究和教育目的。
  • 每个模型对其输出都有各自的使用条款。在将本数据集的部分内容用于下游训练时,请用户参考每个模型的许可证和条款。

引用

  • 技术报告:https://allenai.org/olmo3.pdf
  • 正式引用信息即将发布。
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型偏好优化领域,构建高质量且规模庞大的响应池是推动模型对齐研究的关键。Dolci-DPO-Model-Response-Pool数据集通过系统化的方式汇集了来自多个前沿语言模型的合成响应。其构建过程以AllenAI的Dolci-Instruct-SFT和WildChat数据集作为提示来源,确保了指令的多样性与真实性。针对每个模型配置,研究团队生成了多达250万条响应,最终整合了约7100万个提示-响应对,形成了一个覆盖29个不同模型、总计近250万独特提示的庞大语料库,为跨模型比较与分析奠定了坚实基础。
特点
该数据集的核心特点在于其广泛的模型覆盖与精细的配置划分。它囊括了Gemma 3、GPT系列、Mistral、OLMo 2、Phi 4、Qwen 3(含推理与非推理变体)、QwQ以及Yi 1.5等多个主流模型家族,共计29种具体配置,涵盖了从0.6B到120B的参数规模。数据集结构清晰,每个模型拥有独立的配置,数据以Parquet格式存储,便于高效加载与处理。字段设计简洁明了,包含唯一标识符、提示来源、原始提示、模型响应及模型名称,为研究者提供了标准化的数据接口。尤为重要的是,它支持基于相同提示的跨模型响应直接对比,为模型行为分析与性能评估提供了前所未有的便利。
使用方法
为充分利用该数据集进行学术研究,用户可通过Hugging Face的`datasets`库便捷加载。数据集支持按模型配置进行灵活调用,既可单独加载某一特定模型的全部响应,也可并行加载多个模型以构建对比集合。通过建立以`custom_id`为键的查找表,研究者能够轻松提取同一提示下不同模型的响应,实现精准的横向比较。这种设计使得该数据集天然适用于直接偏好优化、响应质量评估、模型行为分析以及指令跟随能力研究等多个方向。在使用时,需注意遵守ODC-BY许可协议,并关注各源模型自身的输出使用条款,确保研究的合规性与伦理性。
背景与挑战
背景概述
在大型语言模型(LLM)的优化与对齐研究中,直接偏好优化(DPO)作为一种无需强化学习的高效微调方法,已成为提升模型与人类价值观对齐能力的关键技术。Dolci-DPO-Model-Response-Pool数据集由艾伦人工智能研究所(Allen Institute for AI)于近期构建,旨在为DPO训练提供大规模、多样化的模型响应池。该数据集汇集了来自Gemma 3、GPT系列、Qwen 3、OLMo 2等29个不同架构与规模的先进语言模型,针对超过250万个提示生成的约7100万条响应,其提示源自Dolci-Instruct-SFT与WildChat等高质量指令数据集。该资源的核心研究问题在于通过跨模型响应比较,系统评估不同模型在指令遵循、推理能力等方面的表现差异,从而为模型选择、偏好数据构建及对齐算法开发提供实证基础,对推动语言模型安全、可控发展具有显著影响力。
当前挑战
该数据集致力于解决语言模型对齐与优化中的关键挑战,即如何高效获取大规模、高质量的偏好数据以训练鲁棒的DPO模型。首要挑战在于模型响应的质量与一致性评估,不同模型在相同提示下可能产生语义正确但风格迥异、甚至包含隐性偏见的响应,这为偏好标注与模型比较带来了复杂性。其次,构建过程中面临多模型协同与数据管理的难题,需协调数十个模型的推理流程,确保响应覆盖的广泛性与数据格式的统一,同时处理各模型自身许可协议的合规性问题。此外,数据集的规模与多样性要求对计算资源与存储架构提出了极高需求,如何在保证数据完整性的前提下实现高效存取与跨模型对比分析,亦是实际构建中的技术瓶颈。
常用场景
经典使用场景
在大型语言模型(LLM)的评估与比较研究中,Dolci-DPO-Model-Response-Pool数据集提供了一个标准化的基准平台。该数据集汇集了来自Gemma、GPT、Qwen等主流模型家族对同一批指令提示的响应,使得研究者能够系统性地分析不同模型在文本生成质量、风格一致性与逻辑连贯性等方面的表现。通过跨模型对比,该数据集常被用于深入探究模型架构、参数量以及训练策略对生成结果的影响,为模型性能的量化评估奠定了数据基础。
解决学术问题
该数据集有效解决了大语言模型领域内模型响应质量缺乏统一、可复现比较基准的学术难题。通过提供大规模、多模型并行的响应数据,它支持对模型对齐技术、偏好优化(DPO)效果以及指令跟随能力的实证研究。其意义在于促进了模型评估从单一指标向多维度、细粒度分析的转变,为理解模型行为差异提供了丰富的实证材料,推动了模型可解释性与鲁棒性研究的深入发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在模型响应自动评估、偏好学习以及多模型集成等领域。例如,基于其跨模型响应对比,研究者开发了新的评估指标以量化生成文本的多样性与忠实度。同时,该数据集也被用于训练响应排序模型或构建强化学习中的奖励模型,进一步推动了基于人类反馈的优化方法发展。这些工作显著拓展了大语言模型评估与对齐技术的研究边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作