scicoqa
收藏SciCoQA 数据集概述
数据集详情
数据集描述
SciCoQA 是一个旨在检测科学出版物与其代码库之间差异的数据集,以确保实现与描述的一致性。该数据集致力于解决确保代码忠实实现科学论文中报告的方法这一挑战,这是解决人工智能和计算科学领域“可重复性危机”的关键方面。
数据集共包含 611 个论文-代码差异实例,其中 81 个为真实世界实例,530 个为合成实例。这些差异涵盖多个计算科学学科,包括人工智能、物理学、定量生物学等。
- 策划者: Tim Baumgärtner 和 Iryna Gurevych(达姆施塔特工业大学,泛在知识处理实验室)。
- 共享者: UKP Lab
- 语言: 英语
- 许可证: CC-BY-4.0
数据集来源
- 论文: https://arxiv.org/abs/2601.12910
- 数据: https://huggingface.co/datasets/UKPLab/scicoqa
- 代码: https://github.com/UKPLab/scicoqa
- 演示: https://hf.co/spaces/UKPLab/scicoqa
- 项目页面: https://ukplab.github.io/scicoqa
用途
直接用途
SciCoQA 的主要用途是为大型语言模型在科学领域自动化质量保证任务上提供基准测试。具体而言,它测试模型在以下方面的能力:
- 识别“论文-代码差异”,即科学论文文本中描述的方法与其代码实现之间存在有意义的语义冲突。
- 在密集的科学论文和冗长的多文件代码仓库上进行全局对齐推理。
- 验证代码生成或自主“AI科学家”代理的忠实性。
超出范围的用途
该数据集不适用于:
- 检测与科学描述无关的简单软件工程错误(例如,运行时错误)。
- 识别可通过命令行或配置文件配置的默认超参数不匹配。
- 评估为可读性而省略在论文中的琐碎实现细节或标准工程实践。
数据集结构
数据集分为两个部分:真实(81 个示例)和合成(530 个示例)。
每个条目代表一个差异,包含以下字段:
discrepancy_id:差异的唯一标识符。paper_url:论文的 URL。paper_url_versioned:如果使用了论文的 arXiv 版本,此字段包含差异发生时(discrepancy_date)该版本论文的 URL。code_url:GitHub 代码仓库的 URL。code_url_versioned:差异发生时(discrepancy_date)特定提交的 URL。discrepancy_date:差异在 GitHub Issue 或可重复性论文中被报告的日期。对于合成数据,日期固定为 2025-10-31。origin_type:差异来源的类型,为 GitHub Issue 或 Reproducibility Paper。对于合成数据,设置为 Synthetic。origin_url:来源的 URL,即 GitHub Issue 或可重复性论文。origin_discrepancy_text:来自 GitHub Issue 的差异文本或来自可重复性论文的差异摘要。对于合成数据,此字段为空。is_valid_discrepancy_reason:对于真实世界数据,这是由 GPT-5 生成的解释,说明为何该差异符合定义。discrepancy_description:一个 3-8 句的摘要,描述论文所述内容、代码实现内容以及具体差异。对于真实世界数据,该描述已由 GPT-5 根据 GitHub Issue 或可重复性报告重新表述。对于合成数据,该描述由 GPT-5 根据数据集策划者设计的提示生成。relevant_paper_sections和relevant_code_files:支持该差异的证据。这些是在生成差异描述时由 GPT-5 提取的,未经人工验证。changed_code_files和changed_code_snippets:对于合成数据,这些字段包含为创建差异而更改的代码文件和代码片段。对于真实世界数据,这些字段为空。discrepancy_type:不匹配的性质,分类为 Difference(逻辑不同)、Paper Omission(代码包含论文中缺失的逻辑)或 Code Omission(代码缺失论文中描述的步骤)。discrepancy_category:受影响的流水线组件,例如 Algorithm、Model、Loss、Evaluation、Data 或 Training(仅适用于计算机科学论文)。arxiv_subject:论文的主题,例如 Computer Science、Physics、Quantitative Biology。arxiv_categories:论文的类别,例如 cs.CV、physics.comp-ph、stat.ML。arxiv_year:论文在 arXiv 上发布的年份。
数据集创建
策划理由
虽然代码的可用性是可重复性的先决条件,但它并不能保证与科学文本的一致性。实现细节常常与描述发生分歧,从而产生未报告的性能差异。当前的手动审查过程耗时且难以扩展,尤其是在自主 AI 代理生成科学的兴起背景下。创建 SciCoQA 旨在为能够验证论文-代码忠实性的自动化工具提供基准测试的真实数据。
源数据
数据收集与处理
数据集构建自两个主要来源:
- 真实世界数据(81 个实例):
- GitHub Issues: 来源于 2020-2025 年间发布并引用研究论文的仓库。使用 Qwen3 4B Thinking 过滤 Issue 以识别潜在差异,随后进行人工验证。
- 可重复性论文: 来源于 ML 可重复性挑战和会议专题(NeurIPS、ICML 等)。使用 GPT-5 提取差异提及,然后进行人工验证。
- 合成数据(530 个实例):
- 通过对真实的科学代码库(计算机科学、物理学、定量生物学等)注入修改生成。
- 提示 GPT-5 创建“概念上有意义”的差异(例如,更改归一化类型或省略逻辑步骤),同时避免简单的错误或注释。
- 这使得数据集能够扩展到计算机科学/人工智能领域之外的其他计算科学领域。
源数据生产者
真实世界数据来源于开源社区中 GitHub Issue 和可重复性报告的作者。合成数据的修改由 GPT-5 生成。
标注
标注过程
所有候选实例(真实和合成)都经过了严格的验证过程:
- 人工过滤: 对真实世界候选实例进行人工过滤,以确保其符合“论文-代码差异”的严格定义(排除错误和超参数不匹配)。
- LLM 验证: 所有经过人工过滤的差异都由 GPT-5 进行验证,检查给定原始论文和代码是否存在该差异。
- 标准化措辞: GPT-5 为所有差异生成了标准化的描述,以确保格式和详细程度的一致性。
标注者
标注流程结合了自动化大型语言模型(Qwen3、GPT-5)和数据集作者的人工验证。
个人与敏感信息
数据来源于公开可用的科学出版物和开源仓库。虽然数据不包含个人隐私信息,但它与特定论文作者相关联。策划者强调,这些差异被视为用于改进可重复性的科学产物,而非对个别研究人员的批评。
偏差、风险与局限性
- 领域偏差: 真实世界数据主要偏向计算机科学和人工智能领域。包含了来自物理学、生物学和工程学的合成数据以缓解此问题,但在非计算机科学领域的性能在很大程度上依赖于合成近似。
- 定义约束: 数据集专注于“有意义的不匹配”,明确排除了软件工程缺陷或文档错误。它不涵盖软件缺陷的完整范围。
- 数据集规模: 包含 611 个差异,与预训练语料库相比,数据集规模相对较小,这是为确保高质量和严格验证而做出的权衡。
建议
用户在解释模型在非计算机科学领域的性能时,应理解该数据是合成的。此外,由于最先进模型的召回率较低(例如,GPT-5 仅能检测出 45.7% 的真实差异),基于此基准的自动化工具尚不应作为判断论文有效性的唯一依据。
引用
BibTeX: bibtex @article{scicoqa-baumgaertner-etal-2026, title={{SciCoQA: Quality Assurance for Scientific Paper--Code Alignment}}, author={Tim Baumgärtner and Iryna Gurevych}, year={2026}, eprint={2601.12910}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.12910}, }
数据集卡片作者
Tim Baumgärtner
数据集卡片联系方式
tim.baumgaertner@tu-darmstadt.de




