five

AmazonScience/SpIDER-Bench

收藏
Hugging Face2026-04-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/AmazonScience/SpIDER-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: other license_name: other license_link: LICENSE --- ## Description Graph data for software repository dependency structures, supporting the SpIDER framework for spatially-informed code retrieval and issue localization. ## Status Work in progress. Data and documentation will be expanded. ## Citation ``` @article{chaudhari2024spider, title={SpIDER: Spatially Informed Dense Embedding Retrieval for Software Issue Localization}, author={Chaudhari, Shravan and Jacob, Rahul Thomas and Goswami, Mononito and Cao, Jiajun and Rashid, Shihab and Bock, Christian}, journal={arXiv preprint arXiv:2512.16956}, year={2024} } ``` ### License This repository contains code segments under multiple licenses (MIT, Apache 2.0, BSD, and GPL etc.,), The repository is adapted from the listed open source projects (see Notice file (`notice.md`) for 3P code); your use of this repository must comply with relevant code segments' licenses.
提供机构:
AmazonScience
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,为支持空间感知的代码检索与问题定位研究,SpIDER-Bench数据集通过系统化采集开源软件仓库的依赖结构图数据构建而成。其构建过程整合了多个开源项目,依据项目中的依赖关系提取出结构化的图表示,涵盖了函数调用、模块导入等关键关联,为代码的空间上下文分析提供了坚实基础。数据来源严格遵守相关开源许可协议,确保了构建过程的合规性与可追溯性。
特点
该数据集的核心特点在于其专注于软件仓库的依赖结构,以图数据形式呈现代码元素间的空间与逻辑关联。它不仅支持传统的代码检索任务,更强化了对代码空间上下文信息的编码,能够助力模型理解函数、模块之间的调用与依赖网络。这种结构化的表示形式为软件问题定位、代码理解等研究提供了独特而丰富的语义信息,具有较高的领域针对性与应用潜力。
使用方法
研究人员可利用SpIDER-Bench数据集训练或评估面向代码检索与软件问题定位的模型,特别是基于图神经网络或空间感知嵌入的方法。使用时需遵循数据集附带的许可协议,注意其中代码片段可能涉及MIT、Apache 2.0等多种开源许可。建议结合SpIDER框架进行实验,以充分发挥其空间信息编码的优势,推动软件工程智能化辅助工具的发展。
背景与挑战
背景概述
在软件工程领域,代码库的复杂性与日俱增,如何精准定位软件缺陷成为关键研究课题。SpIDER-Bench数据集于2024年由Chaudhari等人提出,旨在为软件仓库依赖结构提供图数据支持,服务于SpIDER框架的空间感知代码检索与问题定位研究。该数据集聚焦于通过空间信息增强的密集嵌入检索技术,以解决传统代码检索方法在理解代码结构上下文方面的不足,为自动化软件维护与调试任务提供了新的数据基础,推动了智能软件工程工具的发展。
当前挑战
SpIDER-Bench数据集所应对的核心挑战在于提升软件问题定位的准确性与效率,传统方法往往忽视代码的空间依赖关系,导致检索结果缺乏上下文连贯性。在构建过程中,数据集面临多重挑战:一是需要从异构的软件仓库中提取并标准化依赖图结构,涉及多种开源许可证的合规性处理;二是确保图数据的质量与一致性,以支持密集嵌入模型的训练与评估;三是数据标注的复杂性,要求精确映射代码片段与问题报告之间的空间关联,这需要深入的领域专业知识与大量人工校验。
常用场景
经典使用场景
在软件工程领域,代码库的依赖结构分析是理解复杂系统行为的关键。SpIDER-Bench数据集为研究者提供了一个包含软件仓库依赖结构的图数据资源,其经典使用场景在于支持空间感知的代码检索与问题定位框架。通过该数据集,学者能够构建基于图神经网络的模型,以探索代码元素之间的空间关系,从而在大型代码库中精准识别与特定问题相关的代码片段,为自动化软件维护奠定基础。
解决学术问题
该数据集主要解决了软件工程中代码检索与问题定位的学术挑战。传统方法往往忽视代码间的空间依赖关系,导致检索精度不足。SpIDER-Bench通过提供结构化的依赖图数据,使研究者能够开发空间感知的检索模型,有效提升问题定位的准确性与效率。这一进展不仅推动了代码理解领域的发展,还为软件维护自动化提供了新的理论支撑,具有重要的学术意义。
衍生相关工作
基于SpIDER-Bench数据集,已衍生出多项经典研究工作。其中,SpIDER框架作为核心,提出了空间感知的密集嵌入检索方法,为后续研究奠定了基础。相关扩展工作包括结合多模态信息的代码分析模型,以及应用于特定领域如安全漏洞检测的变体。这些工作进一步丰富了软件工程领域的工具链,推动了代码检索技术的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作