bamboo-papers

Hugging Face2026-03-27 更新2026-03-28 收录

下载链接：

https://huggingface.co/datasets/xln3/bamboo-papers

下载链接

链接失效反馈

官方服务：

资源简介：

BAMBOO 是一个大规模基准数据集，旨在评估 AI 代理使用作者原始代码复现机器学习研究论文的能力。数据集包含 6,148 篇论文的元数据，其中 5,495 篇（89%）包含原始 PDF，3,983 篇（64%）包含结构化 Markdown 文件。所有论文均来自顶级学术会议（如 ICML、ICLR、NeurIPS、CVPR、ICCV、ACL、EMNLP、AAAI、ICRA），且均包含已验证的代码链接和提交记录。数据集还包含 100% 的论文摘要和难度评分。PDF 文件使用 MinerU v2.7.6 的 hybrid-auto-engine 后端提取，保留了段落顺序、表格结构、数学公式和图表引用。数据集文件包括完整的论文元数据 JSON 文件、原始 PDF 文件夹和提取的 Markdown 文件夹。

创建时间：

2026-03-20

原始信息汇总

BAMBOO: Benchmark for Autonomous ML Build-and-Output Observation 数据集概述

数据集简介

BAMBOO是一个用于评估AI智能体利用作者原始代码复现机器学习研究论文能力的大规模基准数据集。

关键统计信息

总论文数：6,148
包含PDF的论文数：5,495 (89%)
包含结构化Markdown的论文数：3,983 (64%)
覆盖年份：2025
代码覆盖率：100%（所有论文均包含已验证的代码链接和代码提交记录）
摘要覆盖率：100%
难度分数覆盖率：100%

数据来源与构成

来源会议：ICML, ICLR, NeurIPS, CVPR, ICCV, ACL, EMNLP, AAAI, ICRA
包含结构化Markdown的论文会议分布：
- ICML：1,109
- ICLR：669
- ICCV：501
- CVPR：408
- NeurIPS：359
- ACL：327
- EMNLP：294
- AAAI：275
- ICRA：41

文件内容

bamboo_dataset.json：完整的论文元数据文件，包含6,148条记录。
paper_pdfs/：原始论文PDF文件目录，包含5,495个文件，大小约32GB。
paper_markdowns/：由MinerU混合自动引擎提取的Markdown文件目录，包含3,983个文件。

数据处理

PDF提取工具：使用MinerU v2.7.6（https://github.com/opendatalab/MinerU）的hybrid-auto-engine后端（基于VLM的最高质量提取）。
提取内容保留：
- 正确的段落顺序
- 表格结构（以Markdown格式）
- 数学公式
- 图表引用

使用方式

可通过Hugging Face Hub下载元数据及特定论文的Markdown文件。示例如下： python from huggingface_hub import hf_hub_download import json

下载元数据

path = hf_hub_download("xln3/bamboo-papers", "bamboo_dataset.json", repo_type="dataset") papers = json.load(open(path))

筛选包含Markdown的论文

papers_with_md = [p for p in papers if p["has_md"]] print(f"{len(papers_with_md)} papers with structured markdown")

下载特定论文的Markdown文件

md_path = hf_hub_download("xln3/bamboo-papers", "paper_markdowns/bamboo-00001.md", repo_type="dataset")

许可信息

本数据集采用MIT许可证。

搜集汇总

数据集介绍

构建方式

在机器学习研究领域，评估智能体复现学术成果的能力至关重要。BAMBOO数据集从ICML、ICLR、NeurIPS等九大顶级会议中精选了6,148篇2025年的论文，确保每篇均附带已验证的代码链接与提交记录。通过MinerU v2.7.6工具的混合自动引擎，对5,495份PDF进行高质量视觉语言模型提取，生成3,983份结构化Markdown文档，完整保留了段落顺序、表格结构、数学公式及图表引用，构建了一个覆盖全面的基准资源。

使用方法

研究人员可通过Hugging Face Hub便捷获取数据集元文件，利用Python代码加载并筛选具备Markdown格式的论文条目。数据集支持针对特定论文下载其结构化Markdown内容，便于直接进行文本分析或任务执行。用户可依据会议、年份或难度分数进一步过滤数据，构建定制化的评估任务，以系统检验智能体在代码生成、论文理解与实验复现等方面的综合性能。

背景与挑战

背景概述

在人工智能研究领域，如何评估智能体对复杂科学文献的理解与复现能力，已成为推动自动化机器学习发展的关键议题。BAMBOO数据集于2025年由相关研究团队构建，专注于从顶级学术会议中系统收集机器学习研究论文及其对应代码，旨在为评估AI代理在重现原始作者实验过程方面的效能提供大规模基准。该数据集涵盖了ICML、ICLR、NeurIPS等九个权威会议的六千余篇论文，不仅包含完整的代码链接与提交记录，还通过先进文档提取技术保留了论文的结构化信息，为研究社区探索智能体在科学发现自动化中的潜力奠定了重要基础。

当前挑战

BAMBOO数据集致力于解决自动化机器学习中智能体对研究论文进行代码生成与实验复现的核心挑战，其难点在于如何准确理解论文中复杂的数学公式、算法描述及实验设置，并转化为可执行的代码。在构建过程中，数据集面临从异构PDF格式中高质量提取结构化文本的挑战，需确保段落顺序、表格结构与数学符号的完整性；同时，验证并关联每篇论文与其原始代码仓库的正确提交版本，也涉及大规模数据清洗与一致性维护的复杂工程。

常用场景

经典使用场景

在机器学习研究领域，BAMBOO数据集为评估人工智能代理的自主科研能力提供了标准化基准。该数据集的核心应用场景聚焦于测试智能体能否基于原始论文及其代码仓库，完整复现机器学习研究成果。通过提供超过六千篇高质量学术论文的元数据、PDF文档及结构化Markdown版本，研究者能够系统性地考察智能体在理解论文内容、定位代码依赖、执行复现流程等方面的综合性能，从而推动自动化科研工具的发展。

解决学术问题

BAMBOO数据集有效应对了机器学习社区中长期存在的复现性挑战。它通过整合论文、代码与结构化文本，为量化评估智能体的复现能力建立了统一框架，解决了以往基准缺失导致的评估碎片化问题。该数据集使得研究者能够精确分析智能体在代码生成、文档理解与实验执行中的瓶颈，促进了可复现性研究范式的标准化，对提升学术研究的透明度和可靠性具有深远意义。

实际应用

在实际应用层面，BAMBOO数据集为开发智能科研助手与自动化实验平台提供了关键数据支撑。教育机构可借助该数据集训练学生快速掌握论文复现技能；工业界研发团队则能利用其构建智能代理，以加速文献调研、原型验证与技术迁移。此外，该数据集支持对智能体进行端到端评估，助力开发能够自主阅读文献、运行代码并生成分析报告的下一代人工智能系统。

数据集最近研究