SWE-QA-Pro-Bench
收藏Hugging Face2026-03-24 更新2026-03-25 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/SWE-QA-Pro-Bench
下载链接
链接失效反馈官方服务:
资源简介:
SWE-QA-Pro Bench 是一个仓库级别的问答数据集,旨在评估模型是否能够在真实代码库上进行基于实际场景的推理。与以往专注于流行仓库或短代码片段的基准不同,SWE-QA-Pro 强调具有多样化结构和领域的长尾仓库,以及需要浏览多个文件的仓库相关问题。数据集通过数据驱动的方式构建,包括收集大规模 GitHub 问题、合成基于可执行仓库的问答对,并通过难度校准步骤去除无需仓库交互即可解决的问题。最终数据集包含来自 26 个仓库的 260 个高质量问答对(每个仓库 10 个),解决这些任务通常需要多步推理和代码库探索。数据集格式为 JSONL,包含仓库名称、提交哈希、语义任务集群、问题类型、问题和答案等字段。评估协议区分了直接回答和基于工具的问答,使用 LLM 作为评判框架对回答进行评分。
提供机构:
TIGER-Lab
创建时间:
2026-03-24



