Dolci-RL-Zero-General-7B

Name: Dolci-RL-Zero-General-7B
Creator: maas
Published: 2026-01-07 02:13:50
License: 暂无描述

魔搭社区2026-01-07 更新2026-01-10 收录

下载链接：

https://modelscope.cn/datasets/allenai/Dolci-RL-Zero-General-7B

下载链接

链接失效反馈

官方服务：

资源简介：

# Dolci-RL-Zero-General-7B ## Dataset Summary **Dolci-RL-Zero-General-7B** is the reinforcement learning dataset used to train the *Olmo3-RL-Zero-7B-General* model. It contains **12,841** general chat prompts sampled from the larger Dolci-Think-RL mixture. The reward was dervied by using an LM judge. --- ## Downloading You can download and load this data using HuggingFace's `datasets` library with the following code: ```python from datasets import load_dataset dataset = load_dataset("allenai/Dolci-RL-Zero-General-7B", split="train",) ``` ### Licensing Information This dataset is licensed under ODC-BY. It is intended for research and educational use in accordance with Ai2's [Responsible Use Guidelines](https://allenai.org/responsible-use). ### Citation ``` @misc{olmo2025olmo3, title={Olmo 3}, author={Team Olmo and Allyson Ettinger and Amanda Bertsch and Bailey Kuehl and David Graham and David Heineman and Dirk Groeneveld and Faeze Brahman and Finbarr Timbers and Hamish Ivison and Jacob Morrison and Jake Poznanski and Kyle Lo and Luca Soldaini and Matt Jordan and Mayee Chen and Michael Noukhovitch and Nathan Lambert and Pete Walsh and Pradeep Dasigi and Robert Berry and Saumya Malik and Saurabh Shah and Scott Geng and Shane Arora and Shashank Gupta and Taira Anderson and Teng Xiao and Tyler Murray and Tyler Romero and Victoria Graf and Akari Asai and Akshita Bhagia and Alexander Wettig and Alisa Liu and Aman Rangapur and Chloe Anastasiades and Costa Huang and Dustin Schwenk and Harsh Trivedi and Ian Magnusson and Jaron Lochner and Jiacheng Liu and Lester James V. Miranda and Maarten Sap and Malia Morgan and Michael Schmitz and Michal Guerquin and Michael Wilson and Regan Huff and Ronan Le Bras and Rui Xin and Rulin Shao and Sam Skjonsberg and Shannon Zejiang Shen and Shuyue Stella Li and Tucker Wilde and Valentina Pyatkin and Will Merrill and Yapei Chang and Yuling Gu and Zhiyuan Zeng and Ashish Sabharwal and Luke Zettlemoyer and Pang Wei Koh and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi}, year={2025}, eprint={2512.13961}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.13961}, } ```

# Dolci-RL-Zero-General-7B ## 数据集概述 **Dolci-RL-Zero-General-7B** 是用于训练 *Olmo3-RL-Zero-7B-General* 模型的强化学习（Reinforcement Learning, RL）数据集。该数据集从规模更大的Dolci-Think-RL混合数据集中共采样得到12,841条通用对话提示词，其奖励信号由语言模型评判器（LM judge）计算得到。 --- ## 下载方式你可通过HuggingFace的`datasets`库下载并加载此数据集，使用代码如下： python from datasets import load_dataset dataset = load_dataset("allenai/Dolci-RL-Zero-General-7B", split="train",) ### 许可信息本数据集采用ODC-BY许可协议发布，仅可用于研究与教育用途，需遵循艾伦人工智能研究院（Allen AI, Ai2）的[负责任使用指南](https://allenai.org/responsible-use)。 ### 引用 @misc{olmo2025olmo3, title={Olmo 3}, author={Team Olmo and Allyson Ettinger and Amanda Bertsch and Bailey Kuehl and David Graham and David Heineman and Dirk Groeneveld and Faeze Brahman and Finbarr Timbers and Hamish Ivison and Jacob Morrison and Jake Poznanski and Kyle Lo and Luca Soldaini and Matt Jordan and Mayee Chen and Michael Noukhovitch and Nathan Lambert and Pete Walsh and Pradeep Dasigi and Robert Berry and Saumya Malik and Saurabh Shah and Scott Geng and Shane Arora and Shashank Gupta and Taira Anderson and Teng Xiao and Tyler Murray and Tyler Romero and Victoria Graf and Akari Asai and Akshita Bhagia and Alexander Wettig and Alisa Liu and Aman Rangapur and Chloe Anastasiades and Costa Huang and Dustin Schwenk and Harsh Trivedi and Ian Magnusson and Jaron Lochner and Jiacheng Liu and Lester James V. Miranda and Maarten Sap and Malia Morgan and Michael Schmitz and Michal Guerquin and Michael Wilson and Regan Huff and Ronan Le Bras and Rui Xin and Rulin Shao and Sam Skjonsberg and Shannon Zejiang Shen and Shuyue Stella Li and Tucker Wilde and Valentina Pyatkin and Will Merrill and Yapei Chang and Yuling Gu and Zhiyuan Zeng and Ashish Sabharwal and Luke Zettlemoyer and Pang Wei Koh and Ali Farhadi and Noah A. Smith and Hannaneh Hajishirzi}, year={2025}, eprint={2512.13961}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2512.13961}, }

提供机构：

maas

创建时间：

2025-12-02

5,000+

优质数据集

54 个

任务类型

进入经典数据集