scicoqa

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/UKPLab/scicoqa

下载链接

链接失效反馈

官方服务：

资源简介：

SciCoQA是一个旨在检测科学出版物与其代码库之间差异的数据集，以确保代码忠实实现论文中报告的方法。该数据集包含611个论文-代码差异实例，其中81个为真实世界实例，530个为合成实例，涵盖AI、物理学、定量生物学等多个计算科学学科。数据集由达姆施塔特工业大学的UKP Lab团队策划，主要用于评估大型语言模型在科学自动化质量保证任务中的表现。

SciCoQA is a dataset developed to detect discrepancies between scientific publications and their associated code repositories, with the goal of verifying that code faithfully implements the methods reported in the papers. This dataset contains 611 paper-code discrepancy instances, among which 81 are real-world instances and 530 are synthetic instances, covering multiple computational science disciplines including AI, physics, and quantitative biology. Curated by the UKP Lab team at Technische Universität Darmstadt, the dataset is primarily used to evaluate the performance of large language models in scientific automated quality assurance tasks.

创建时间：

2026-01-12

原始信息汇总

SciCoQA 数据集概述

数据集详情

数据集描述

SciCoQA 是一个旨在检测科学出版物与其代码库之间差异的数据集，以确保实现与描述的一致性。该数据集致力于解决确保代码忠实实现科学论文中报告的方法这一挑战，这是解决人工智能和计算科学领域“可重复性危机”的关键方面。

数据集共包含 611 个论文-代码差异实例，其中 81 个为真实世界实例，530 个为合成实例。这些差异涵盖多个计算科学学科，包括人工智能、物理学、定量生物学等。

策划者： Tim Baumgärtner 和 Iryna Gurevych（达姆施塔特工业大学，泛在知识处理实验室）。
共享者： UKP Lab
语言： 英语
许可证： CC-BY-4.0

数据集来源

论文： https://arxiv.org/abs/2601.12910
数据： https://huggingface.co/datasets/UKPLab/scicoqa
代码： https://github.com/UKPLab/scicoqa
演示： https://hf.co/spaces/UKPLab/scicoqa
项目页面： https://ukplab.github.io/scicoqa

用途

直接用途

SciCoQA 的主要用途是为大型语言模型在科学领域自动化质量保证任务上提供基准测试。具体而言，它测试模型在以下方面的能力：

识别“论文-代码差异”，即科学论文文本中描述的方法与其代码实现之间存在有意义的语义冲突。
在密集的科学论文和冗长的多文件代码仓库上进行全局对齐推理。
验证代码生成或自主“AI科学家”代理的忠实性。

超出范围的用途

该数据集不适用于：

检测与科学描述无关的简单软件工程错误（例如，运行时错误）。
识别可通过命令行或配置文件配置的默认超参数不匹配。
评估为可读性而省略在论文中的琐碎实现细节或标准工程实践。

数据集结构

数据集分为两个部分：真实（81 个示例）和合成（530 个示例）。

每个条目代表一个差异，包含以下字段：

discrepancy_id：差异的唯一标识符。
paper_url：论文的 URL。
paper_url_versioned：如果使用了论文的 arXiv 版本，此字段包含差异发生时（discrepancy_date）该版本论文的 URL。
code_url：GitHub 代码仓库的 URL。
code_url_versioned：差异发生时（discrepancy_date）特定提交的 URL。
discrepancy_date：差异在 GitHub Issue 或可重复性论文中被报告的日期。对于合成数据，日期固定为 2025-10-31。
origin_type：差异来源的类型，为 GitHub Issue 或 Reproducibility Paper。对于合成数据，设置为 Synthetic。
origin_url：来源的 URL，即 GitHub Issue 或可重复性论文。
origin_discrepancy_text：来自 GitHub Issue 的差异文本或来自可重复性论文的差异摘要。对于合成数据，此字段为空。
is_valid_discrepancy_reason：对于真实世界数据，这是由 GPT-5 生成的解释，说明为何该差异符合定义。
discrepancy_description：一个 3-8 句的摘要，描述论文所述内容、代码实现内容以及具体差异。对于真实世界数据，该描述已由 GPT-5 根据 GitHub Issue 或可重复性报告重新表述。对于合成数据，该描述由 GPT-5 根据数据集策划者设计的提示生成。
relevant_paper_sections 和 relevant_code_files：支持该差异的证据。这些是在生成差异描述时由 GPT-5 提取的，未经人工验证。
changed_code_files 和 changed_code_snippets：对于合成数据，这些字段包含为创建差异而更改的代码文件和代码片段。对于真实世界数据，这些字段为空。
discrepancy_type：不匹配的性质，分类为 Difference（逻辑不同）、Paper Omission（代码包含论文中缺失的逻辑）或 Code Omission（代码缺失论文中描述的步骤）。
discrepancy_category：受影响的流水线组件，例如 Algorithm、Model、Loss、Evaluation、Data 或 Training（仅适用于计算机科学论文）。
arxiv_subject：论文的主题，例如 Computer Science、Physics、Quantitative Biology。
arxiv_categories：论文的类别，例如 cs.CV、physics.comp-ph、stat.ML。
arxiv_year：论文在 arXiv 上发布的年份。

数据集创建

策划理由

虽然代码的可用性是可重复性的先决条件，但它并不能保证与科学文本的一致性。实现细节常常与描述发生分歧，从而产生未报告的性能差异。当前的手动审查过程耗时且难以扩展，尤其是在自主 AI 代理生成科学的兴起背景下。创建 SciCoQA 旨在为能够验证论文-代码忠实性的自动化工具提供基准测试的真实数据。

源数据

数据收集与处理

数据集构建自两个主要来源：

真实世界数据（81 个实例）：
- GitHub Issues： 来源于 2020-2025 年间发布并引用研究论文的仓库。使用 Qwen3 4B Thinking 过滤 Issue 以识别潜在差异，随后进行人工验证。
- 可重复性论文： 来源于 ML 可重复性挑战和会议专题（NeurIPS、ICML 等）。使用 GPT-5 提取差异提及，然后进行人工验证。
合成数据（530 个实例）：
- 通过对真实的科学代码库（计算机科学、物理学、定量生物学等）注入修改生成。
- 提示 GPT-5 创建“概念上有意义”的差异（例如，更改归一化类型或省略逻辑步骤），同时避免简单的错误或注释。
- 这使得数据集能够扩展到计算机科学/人工智能领域之外的其他计算科学领域。

源数据生产者

真实世界数据来源于开源社区中 GitHub Issue 和可重复性报告的作者。合成数据的修改由 GPT-5 生成。

标注

标注过程

所有候选实例（真实和合成）都经过了严格的验证过程：

人工过滤： 对真实世界候选实例进行人工过滤，以确保其符合“论文-代码差异”的严格定义（排除错误和超参数不匹配）。
LLM 验证： 所有经过人工过滤的差异都由 GPT-5 进行验证，检查给定原始论文和代码是否存在该差异。
标准化措辞： GPT-5 为所有差异生成了标准化的描述，以确保格式和详细程度的一致性。

标注者

标注流程结合了自动化大型语言模型（Qwen3、GPT-5）和数据集作者的人工验证。

个人与敏感信息

数据来源于公开可用的科学出版物和开源仓库。虽然数据不包含个人隐私信息，但它与特定论文作者相关联。策划者强调，这些差异被视为用于改进可重复性的科学产物，而非对个别研究人员的批评。

偏差、风险与局限性

领域偏差： 真实世界数据主要偏向计算机科学和人工智能领域。包含了来自物理学、生物学和工程学的合成数据以缓解此问题，但在非计算机科学领域的性能在很大程度上依赖于合成近似。
定义约束： 数据集专注于“有意义的不匹配”，明确排除了软件工程缺陷或文档错误。它不涵盖软件缺陷的完整范围。
数据集规模： 包含 611 个差异，与预训练语料库相比，数据集规模相对较小，这是为确保高质量和严格验证而做出的权衡。

建议

用户在解释模型在非计算机科学领域的性能时，应理解该数据是合成的。此外，由于最先进模型的召回率较低（例如，GPT-5 仅能检测出 45.7% 的真实差异），基于此基准的自动化工具尚不应作为判断论文有效性的唯一依据。

引用

BibTeX： bibtex @article{scicoqa-baumgaertner-etal-2026, title={{SciCoQA: Quality Assurance for Scientific Paper--Code Alignment}}, author={Tim Baumgärtner and Iryna Gurevych}, year={2026}, eprint={2601.12910}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.12910}, }

数据集卡片作者

Tim Baumgärtner

数据集卡片联系方式

tim.baumgaertner@tu-darmstadt.de

搜集汇总

数据集介绍

构建方式

在应对科学计算领域可复现性挑战的背景下，SciCoQA数据集的构建融合了真实世界与合成数据源。其实例源自2020至2025年间公开发布的研究论文及其关联代码库，通过自动化语言模型筛选与人工严格验证相结合的方式，从GitHub议题及可复现性研究报告中甄别出符合定义的语义差异。为进一步扩展数据规模并覆盖物理、定量生物学等多学科领域，研究团队利用先进语言模型在真实代码库中有意注入概念性修改，生成了具有语义一致性的合成差异样本，最终形成了包含611个高质量实例的数据集合。

特点

该数据集的核心特征在于其专注于科学论文与代码实现之间深层次的语义对齐问题，而非浅层的工程缺陷。数据条目结构严谨，不仅包含差异的唯一标识与来源元数据，还详尽记录了差异类型、所属学科类别以及受影响的计算流程组件。尤为突出的是，每个实例均附有经过标准化处理的差异描述文本，并关联了支持性证据，如论文相关章节与代码文件引用。数据集明确划分了真实与合成两部分，既保证了基准测试的生态效度，又通过合成数据有效缓解了学科分布不均的局限性。

使用方法

SciCoQA数据集主要服务于大型语言模型在科学质量保证任务上的基准测试。使用者可通过加载数据集中划分的真实与合成部分，评估模型在跨模态对齐推理方面的能力，即模型如何依据冗长的科学论文文本与多文件代码仓库，识别并理解其中存在的语义冲突。该数据集为开发自动化工具提供了标准化的评估框架，可用于验证代码生成或自主智能体在科学发现过程中的忠实性。研究人员应结合数据集的学科分布特点，审慎解读模型在非计算机科学领域的性能表现。

背景与挑战

背景概述

在人工智能与计算科学领域，可复现性危机日益凸显，论文描述与代码实现之间的不一致是导致这一问题的核心症结。SciCoQA数据集由达姆施塔特工业大学泛在知识处理实验室的Tim Baumgärtner与Iryna Gurevych于2026年创建，旨在为科学论文与对应代码库之间的语义对齐提供基准测试。该数据集聚焦于检测文本描述与代码实现之间的实质性差异，覆盖人工智能、物理学、定量生物学等多个计算学科，通过整合81个真实世界实例与530个合成实例，为评估大型语言模型在自动化科学质量保障任务上的能力奠定了数据基础。

当前挑战

SciCoQA数据集致力于解决科学代码忠实性验证这一核心领域问题，其核心挑战在于模型需具备对冗长科学论文与多文件代码库进行全局对齐推理的复杂能力，而非仅识别表面语法错误。在构建过程中，数据集面临双重挑战：其一，真实世界数据收集受限于公开可用的高质量论文-代码对及明确记载的不一致报告，导致数据规模有限且存在以计算机科学为主的领域偏差；其二，合成数据的生成需确保注入的差异具有概念意义且符合科学逻辑，避免沦为简单的工程缺陷，这对提示工程与验证流程提出了极高要求。

常用场景

经典使用场景

在计算科学领域，确保论文描述与代码实现之间的一致性对于研究可复现性至关重要。SciCoQA数据集为这一挑战提供了基准测试平台，其经典使用场景在于评估大型语言模型在自动化质量保证任务中的表现。具体而言，该数据集被用于测试模型识别“论文-代码差异”的能力，即检测科学文本中描述的方法与其在代码库中实现之间的语义冲突。通过要求模型对密集的科学论文和冗长的多文件代码仓库进行全局对齐推理，该场景直接针对当前AI辅助科研中自动化验证的迫切需求，为开发能够自主核查代码忠实性的智能代理奠定了评估基础。

衍生相关工作

围绕SciCoQA数据集，已经衍生出一系列专注于科学文献与代码对齐的经典研究工作。这些工作主要沿着两个方向展开：一是开发新型的神经网络架构与推理模型，旨在提升对长文档和复杂代码库的跨模态理解与差异定位能力；二是利用该数据集的基准特性，系统评估和比较各类大型语言模型在科学质量保证任务上的性能极限与失败模式。这些研究不仅深化了我们对模型科学推理能力的认识，也催生了更精细的差异分类体系与检测方法，进一步推动了自动化科研工具向更高可靠性与领域通用性发展。

数据集最近研究