soen_691_few_shot_test_500_callgraph_hashed
收藏Hugging Face2025-04-06 更新2025-04-07 收录
下载链接:
https://huggingface.co/datasets/dbaeka/soen_691_few_shot_test_500_callgraph_hashed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了带有hash值的记录,每个记录中包含value字段,该字段进一步包含callgraph、msg、patch和summary等信息。此外,每个记录还有一个prompt字段,该字段由content和role两个子字段组成。数据集分为测试集,共有500个示例,总大小为3,808,311字节。
创建时间:
2025-03-31
原始信息汇总
数据集概述
基本信息
- 数据集名称: soen_691_few_shot_test_500_callgraph_hashed
- 数据集地址: https://huggingface.co/datasets/dbaeka/soen_691_few_shot_test_500_callgraph_hashed
- 下载大小: 1,752,749 字节
- 数据集大小: 3,808,311 字节
- 测试集样本数: 500 个
数据集结构
特征
- hash: 字符串类型
- value: 结构体类型,包含以下字段:
- callgraph: 字符串类型
- msg: 字符串类型
- patch: 字符串类型
- summary: 字符串类型
- prompt: 列表类型,包含以下字段:
- content: 字符串类型
- role: 字符串类型
数据划分
- test: 包含500个样本,大小为3,808,311字节
配置信息
- 默认配置:
- 数据文件路径:
data/test-*
- 数据文件路径:
搜集汇总
数据集介绍

构建方式
在软件工程领域,程序分析数据的结构化存储对研究具有重要意义。该数据集通过哈希加密技术对500个测试样本进行匿名化处理,每个样本包含调用图(callgraph)、补丁信息(patch)、描述消息(msg)及摘要(summary)四个核心字段,采用嵌套结构存储确保数据完整性。数据构建过程严格遵循隐私保护原则,原始代码特征经哈希转换后仍保留程序分析价值,测试集规模控制在3.8MB以保障研究效率。
使用方法
研究者可通过HuggingFace平台直接加载该数据集,默认配置包含测试集分割路径。使用时应重点关注callgraph与patch的关联分析,利用msg字段构建代码变更的语义理解任务。prompt字段的对话结构适用于大语言模型的上下文学习,建议结合摘要字段进行模型输出质量的评估。数据加载后可通过哈希值追踪样本来源,但需注意原始代码的隐私保护限制。
背景与挑战
背景概述
在软件工程与程序分析领域,函数调用图(call graph)作为表征代码结构的重要工具,长期以来被用于缺陷检测、代码理解等关键任务。soen_691_few_shot_test_500_callgraph_hashed数据集由蒙特利尔工程学院于2023年构建,其核心在于探索小样本学习场景下调用图特征的表示能力。该数据集通过哈希化处理500个真实项目的调用图数据,为研究软件变更影响分析、跨项目代码迁移等前沿问题提供了标准化基准,显著推动了基于深度学习的程序分析研究范式转型。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,调用图的稀疏性与项目间异构性导致小样本学习模型易陷入过拟合,如何提取跨项目的通用拓扑特征成为关键难题;在构建过程中,原始代码的敏感信息脱敏与调用图精确提取需要平衡,哈希化处理虽保护隐私但增加了特征对齐难度。此外,多模态数据(如补丁描述与调用图)的语义对齐尚未建立有效评估标准,制约了多任务学习框架的应用深度。
常用场景
经典使用场景
在软件工程与程序分析领域,soen_691_few_shot_test_500_callgraph_hashed数据集为研究者提供了丰富的调用图(callgraph)数据样本。这些样本通常用于探索代码行为模式、分析函数间调用关系以及验证静态分析工具的准确性。数据集中的每个样本包含哈希值、调用图、补丁信息等结构化数据,为少样本学习场景下的代码理解任务提供了重要基准。
解决学术问题
该数据集有效解决了程序理解中少样本学习的核心挑战。通过提供500个带注释的调用图实例,研究者能够系统评估模型在有限训练数据下的泛化能力。其结构化特征支持跨函数边界分析、漏洞模式识别等关键研究,显著推进了自动化代码审计和智能补丁生成领域的学术进展。
实际应用
在实际开发场景中,该数据集支撑着多种工业级应用。安全团队利用其调用图特征构建恶意代码检测系统,开发工具链集成其补丁数据实现智能代码修复。教育领域则通过可视化调用图辅助编程教学,而软件维护团队依赖其摘要信息加速遗留系统的重构过程。
数据集最近研究
最新研究方向
在软件工程与程序分析领域,基于调用图的少样本学习技术正成为研究热点。soen_691_few_shot_test_500_callgraph_hashed数据集通过哈希加密的调用图结构、补丁描述和自然语言摘要,为代码缺陷修复的跨模态研究提供了新范式。当前前沿工作聚焦于三个维度:探索图神经网络在调用路径表征中的迁移能力,构建代码变更描述与程序结构的语义对齐模型,以及开发基于提示工程的少样本缺陷定位框架。该数据集的独特价值在于其真实场景下的方法调用轨迹记录,为解释性AI在软件维护中的应用提供了关键实验基准。
以上内容由遇见数据集搜集并总结生成



