five

Dolci-Think-DPO-7B

收藏
魔搭社区2025-12-05 更新2025-11-29 收录
下载链接:
https://modelscope.cn/datasets/allenai/Dolci-Think-DPO-7B
下载链接
链接失效反馈
官方服务:
资源简介:
# Dolci Think 7B DPO Mixture This dataset is licensed under ODC-BY. It is intended for research and educational use in accordance with Ai2's [Responsible Use Guidelines](https://allenai.org/responsible-use). The Dolci Think 7B DPO mixture was used to preference tune Olmo 3 Think 7B. It contains 150,000 preference pairs created with the preference heuristic described in [Delta Learning](https://arxiv.org/abs/2507.06187) (Geng et al. 2025).

# Dolci Think 7B DPO 混合数据集 本数据集采用ODC-BY许可证授权,仅可遵照Ai2的《负责任使用指南(Responsible Use Guidelines)》(https://allenai.org/responsible-use)用于研究与教育用途。 此Dolci Think 7B DPO 混合数据集曾用于对Olmo 3 Think 7B模型进行偏好微调。该数据集包含15万条偏好样本对,其构建基于[Delta Learning](https://arxiv.org/abs/2507.06187)(Geng等人,2025)中提出的偏好启发式方法。
提供机构:
maas
创建时间:
2025-11-21
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作