SWE-QA-Pro-Bench

Name: SWE-QA-Pro-Bench
Creator: TIGER-Lab
Published: 2026-03-24 11:39:17
License: 暂无描述

Hugging Face2026-03-24 更新2026-03-25 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/SWE-QA-Pro-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-QA-Pro Bench 是一个仓库级别的问答数据集，旨在评估模型是否能够在真实代码库上进行基于实际场景的推理。与以往专注于流行仓库或短代码片段的基准不同，SWE-QA-Pro 强调具有多样化结构和领域的长尾仓库，以及需要浏览多个文件的仓库相关问题。数据集通过数据驱动的方式构建，包括收集大规模 GitHub 问题、合成基于可执行仓库的问答对，并通过难度校准步骤去除无需仓库交互即可解决的问题。最终数据集包含来自 26 个仓库的 260 个高质量问答对（每个仓库 10 个），解决这些任务通常需要多步推理和代码库探索。数据集格式为 JSONL，包含仓库名称、提交哈希、语义任务集群、问题类型、问题和答案等字段。评估协议区分了直接回答和基于工具的问答，使用 LLM 作为评判框架对回答进行评分。

提供机构：

TIGER-Lab

创建时间：

2026-03-24

5,000+

优质数据集

54 个

任务类型

进入经典数据集