research-plan-gen
收藏数据集概述
基本信息
- 数据集名称: RPG Dataset (Research Plan Generation)
- 发布者: Facebook
- 访问地址: https://huggingface.co/datasets/facebook/research-plan-gen
- 许可证: CC-by-NC (仅用于基准测试目的)
- 引用文献:
@article{goel2025training, title={Training AI Co-Scientists using Rubric Rewards}, author={Goel, Shashwat and Hazra, Rishi and Jayalath, Dulhan and Willi, Timon and Jain, Parag and Shen, William F. and Leontiadis, Ilias and Barbieri, Francesco and Bachrach, Yoram and Geiping, Jonas and Whitehouse, Chenxi}, journal={arXiv preprint arXiv:2512.XXXXX}, year={2025}}
数据集构成与规模
该数据集包含三个子集,分别涵盖机器学习、Arxiv和PubMed研究论文。
数据统计
| 子集 | 训练集样本数 | 测试集样本数 | 总样本数 |
|---|---|---|---|
| ML | 6,872 | 685 | 7,557 |
| Arxiv | 6,573 | 1,496 | 8,069 |
| Pubmed | 6,423 | 464 | 6,887 |
| 总计 | 19,868 | 2,645 | 22,513 |
配置文件与数据文件
- 配置名称:
ml- 训练集路径:
ml/train/*.parquet - 测试集路径:
ml/test/*.parquet
- 训练集路径:
- 配置名称:
arxiv- 训练集路径:
arxiv/train/*.parquet - 测试集路径:
arxiv/test/*.parquet
- 训练集路径:
- 配置名称:
pubmed- 训练集路径:
pubmed/train/*.parquet - 测试集路径:
pubmed/test/*.parquet
- 训练集路径:
数据模式
每个样本包含以下字段:
- Goal (字符串): 需要完成的研究任务或目标。
- Rubric (字符串列表): 用于评估生成计划的标准列表。
- Reference solution (字符串): 参考解决方案,是Llama4-maverick生成的关于作者如何解决该研究任务的摘要。
- article_id (字符串): 源文章的唯一标识符。
- q_id (字符串): 问题/任务标识符(是目标字符串的SHA256哈希的前16个字符)。
- Subdomain (字符串): 研究子领域(仅Arxiv子集填充此字段,ML和Pubmed子集为空字符串)。
- Category (字符串): 研究类别(仅Arxiv子集和ML测试集填充此字段,ML训练集和Pubmed子集为空字符串)。
- Identifier (字符串): 用于查找原始论文的附加标识符字段。对于ML论文是Openreview论坛ID,对于Arxiv论文是Arxiv标识符,对于Pubmed论文是PMID。
数据加载方式
使用 datasets 库加载数据集:
python
from datasets import load_dataset
加载特定子集
ml_data = load_dataset("facebook/research-plan-gen", "ml") arxiv_data = load_dataset("facebook/research-plan-gen", "arxiv") pubmed_data = load_dataset("facebook/research-plan-gen", "pubmed")
访问数据划分
train_data = ml_data[train] test_data = ml_data[test]
获取样本
sample = train_data[0] print(sample[Goal])
数据示例
python { Goal: You are tasked with fine-tuning a Large Multimodal Model..., Rubric: [ The proposed method should be parameter-efficient..., The method should allow for intuitive control..., ... ], Reference solution: To fine-tune a Large Multimodal Model..., article_id: zxg6601zoc, q_id: a396a61f2da8ce60, Subdomain: , Category: , Identifier: zxg6601zoc }
重要声明
- 目标、评分标准和解决方案是Llama 4的输出,受Llama 4许可证约束(https://github.com/meta-llama/llama-models/tree/main/models/llama4)。
- 如果使用这部分数据来创建、训练、微调或以其他方式改进AI模型,并且该模型被分发或提供,则必须在任何此类AI模型名称的开头包含“Llama”。
- 从其他位置提取的第三方内容受其自身许可证的约束,您在使用该内容时可能受其他法律义务或限制的约束。




