Dolci-Think-DPO-7B

Name: Dolci-Think-DPO-7B
Creator: maas
Published: 2025-12-05 16:57:09
License: 暂无描述

魔搭社区2025-12-05 更新2025-11-29 收录

下载链接：

https://modelscope.cn/datasets/allenai/Dolci-Think-DPO-7B

下载链接

链接失效反馈

官方服务：

资源简介：

# Dolci Think 7B DPO Mixture This dataset is licensed under ODC-BY. It is intended for research and educational use in accordance with Ai2's [Responsible Use Guidelines](https://allenai.org/responsible-use). The Dolci Think 7B DPO mixture was used to preference tune Olmo 3 Think 7B. It contains 150,000 preference pairs created with the preference heuristic described in [Delta Learning](https://arxiv.org/abs/2507.06187) (Geng et al. 2025).

# Dolci Think 7B DPO 混合数据集本数据集采用ODC-BY许可证授权，仅可遵照Ai2的《负责任使用指南（Responsible Use Guidelines）》（https://allenai.org/responsible-use）用于研究与教育用途。此Dolci Think 7B DPO 混合数据集曾用于对Olmo 3 Think 7B模型进行偏好微调。该数据集包含15万条偏好样本对，其构建基于[Delta Learning](https://arxiv.org/abs/2507.06187)（Geng等人，2025）中提出的偏好启发式方法。

提供机构：

maas

创建时间：

2025-11-21

5,000+

优质数据集

54 个

任务类型

进入经典数据集