AmazonScience/SpIDER-Bench

Name: AmazonScience/SpIDER-Bench
Creator: AmazonScience
Published: 2026-04-03 21:57:18
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/AmazonScience/SpIDER-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: other license_name: other license_link: LICENSE --- ## Description Graph data for software repository dependency structures, supporting the SpIDER framework for spatially-informed code retrieval and issue localization. ## Status Work in progress. Data and documentation will be expanded. ## Citation ``` @article{chaudhari2024spider, title={SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization}, author={Chaudhari, Shravan and Jacob, Rahul Thomas and Goswami, Mononito and Cao, Jiajun and Rashid, Shihab and Bock, Christian}, journal={arXiv preprint arXiv:2512.16956}, year={2024} } ``` ### License This repository contains code segments under multiple licenses (MIT, Apache 2.0, BSD, and GPL etc.,), The repository is adapted from the listed open source projects (see Notice file (`notice.md`) for 3P code); your use of this repository must comply with relevant code segments' licenses.

提供机构：

AmazonScience

搜集汇总

数据集介绍

构建方式

在软件工程领域，为支持空间感知的代码检索与问题定位研究，SpIDER-Bench数据集通过系统化采集开源软件仓库的依赖结构图数据构建而成。其构建过程整合了多个开源项目，依据项目中的依赖关系提取出结构化的图表示，涵盖了函数调用、模块导入等关键关联，为代码的空间上下文分析提供了坚实基础。数据来源严格遵守相关开源许可协议，确保了构建过程的合规性与可追溯性。

特点

该数据集的核心特点在于其专注于软件仓库的依赖结构，以图数据形式呈现代码元素间的空间与逻辑关联。它不仅支持传统的代码检索任务，更强化了对代码空间上下文信息的编码，能够助力模型理解函数、模块之间的调用与依赖网络。这种结构化的表示形式为软件问题定位、代码理解等研究提供了独特而丰富的语义信息，具有较高的领域针对性与应用潜力。

使用方法

研究人员可利用SpIDER-Bench数据集训练或评估面向代码检索与软件问题定位的模型，特别是基于图神经网络或空间感知嵌入的方法。使用时需遵循数据集附带的许可协议，注意其中代码片段可能涉及MIT、Apache 2.0等多种开源许可。建议结合SpIDER框架进行实验，以充分发挥其空间信息编码的优势，推动软件工程智能化辅助工具的发展。

背景与挑战

背景概述

在软件工程领域，代码库的复杂性与日俱增，如何精准定位软件缺陷成为关键研究课题。SpIDER-Bench数据集于2024年由Chaudhari等人提出，旨在为软件仓库依赖结构提供图数据支持，服务于SpIDER框架的空间感知代码检索与问题定位研究。该数据集聚焦于通过空间信息增强的密集嵌入检索技术，以解决传统代码检索方法在理解代码结构上下文方面的不足，为自动化软件维护与调试任务提供了新的数据基础，推动了智能软件工程工具的发展。

当前挑战

SpIDER-Bench数据集所应对的核心挑战在于提升软件问题定位的准确性与效率，传统方法往往忽视代码的空间依赖关系，导致检索结果缺乏上下文连贯性。在构建过程中，数据集面临多重挑战：一是需要从异构的软件仓库中提取并标准化依赖图结构，涉及多种开源许可证的合规性处理；二是确保图数据的质量与一致性，以支持密集嵌入模型的训练与评估；三是数据标注的复杂性，要求精确映射代码片段与问题报告之间的空间关联，这需要深入的领域专业知识与大量人工校验。

常用场景

经典使用场景

在软件工程领域，代码库的依赖结构分析是理解复杂系统行为的关键。SpIDER-Bench数据集为研究者提供了一个包含软件仓库依赖结构的图数据资源，其经典使用场景在于支持空间感知的代码检索与问题定位框架。通过该数据集，学者能够构建基于图神经网络的模型，以探索代码元素之间的空间关系，从而在大型代码库中精准识别与特定问题相关的代码片段，为自动化软件维护奠定基础。

解决学术问题

该数据集主要解决了软件工程中代码检索与问题定位的学术挑战。传统方法往往忽视代码间的空间依赖关系，导致检索精度不足。SpIDER-Bench通过提供结构化的依赖图数据，使研究者能够开发空间感知的检索模型，有效提升问题定位的准确性与效率。这一进展不仅推动了代码理解领域的发展，还为软件维护自动化提供了新的理论支撑，具有重要的学术意义。

衍生相关工作

基于SpIDER-Bench数据集，已衍生出多项经典研究工作。其中，SpIDER框架作为核心，提出了空间感知的密集嵌入检索方法，为后续研究奠定了基础。相关扩展工作包括结合多模态信息的代码分析模型，以及应用于特定领域如安全漏洞检测的变体。这些工作进一步丰富了软件工程领域的工具链，推动了代码检索技术的创新与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集