djinn-problems-v0.9

Name: djinn-problems-v0.9
Creator: EleutherAI
Published: 2025-10-27 17:15:41
License: 暂无描述

Hugging Face2025-10-27 更新2025-10-28 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/djinn-problems-v0.9

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个字段，用于描述某种特定的测试案例及其相关信息，如测试案例的描述、函数名、测试用例、真相、漏洞利用等。数据集分为训练集、评估集、备选训练集和备选测试集四个部分，用于不同的训练和评估目的。

This dataset contains multiple fields for describing specific test cases and their relevant information, such as test case description, function name, test cases, ground truth, exploit, etc. The dataset is divided into four subsets: training set, evaluation set, alternative training set, and alternative test set, which serve different training and evaluation objectives.

提供机构：

EleutherAI

创建时间：

2025-10-16

原始信息汇总

DJinn Problems v0.9 数据集概述

数据集基本信息

数据集名称：DJinn Problems v0.9
发布机构：EleutherAI
数据量：11,439,354字节
下载大小：4,396,668字节

数据结构

特征字段

id：字符串类型
description：字符串类型
function_name：字符串类型
test_cases：字符串类型
ground_truth：字符串类型
exploit：字符串类型
insecure_test_cases：字符串类型
insecure_verifier_info：字符串类型
info_leak_method：字符串类型
exploit_explanation：字符串类型
exploit_expected_status：字符串类型
keywords：空列表
evaluated_gt_difficulty：整型
evaluated_exploit_difficulty：整型
gt_model_results：字符串类型
exploit_model_results：字符串类型
vuln_cheatiness：浮点型
exploit_fairness：浮点型
problem_quality：浮点型
problem_appears_as：字符串类型
exploit_finding_appearance：浮点型
order_dependent：布尔型
exploit_type：字符串类型

数据划分

主要划分

训练集：695个样本，5,333,969字节
评估集：42个样本，385,681字节

备用划分

备用训练集：368个样本，2,872,112字节
备用测试集：369个样本，2,847,592字节

配置信息

默认配置：包含所有数据划分
数据文件路径：
- 训练集：data/train-*
- 评估集：data/eval-*
- 备用训练集：data/train_alternate-*
- 备用测试集：data/test_alternate-*

搜集汇总

数据集介绍

构建方式

在软件安全领域，djinn-problems-v0.9数据集的构建采用了系统化方法，通过收集和标注多种编程漏洞相关实例来形成结构化数据。该数据集包含训练集、评估集及多个替代分割，每个条目涵盖问题描述、函数名称、测试用例和漏洞利用信息等关键特征，确保了数据的全面性和多样性。构建过程注重真实场景的模拟，为后续安全分析提供了可靠基础。

特点

该数据集在软件安全研究中展现出显著特点，其多维特征设计覆盖了漏洞描述、利用方法和评估指标，例如漏洞难度评分和公平性度量。数据条目通过详细标注如漏洞类型和解释信息，增强了分析的深度和精确性。这种结构化特征不仅支持复杂查询，还促进了模型在安全任务中的高效应用。

使用方法

针对软件安全评估，djinn-problems-v0.9数据集的使用方法包括加载标准分割进行模型训练和测试，用户可依据配置路径访问不同数据子集。通过解析特征如测试用例和漏洞信息，研究者能够执行漏洞检测和利用分析，提升安全系统的鲁棒性。数据集的多分割设计支持灵活的实验设置，确保评估结果的可靠性。

背景与挑战

背景概述

在软件安全领域，代码漏洞检测一直是保障系统可靠性的核心议题。djinn-problems-v0.9数据集由专业研究团队构建，聚焦于程序代码中的安全缺陷识别与利用机制分析。该数据集通过系统化标注函数描述、测试用例及漏洞利用信息，旨在推动自动化漏洞挖掘技术发展，为智能代码审计工具提供关键训练资源，显著提升了软件安全研究的实证基础与可复现性。

当前挑战

该数据集致力于解决代码安全评估中漏洞利用生成的复杂性挑战，包括多维度漏洞特征建模与对抗性测试案例构建。在数据采集阶段，需平衡真实漏洞样本的稀缺性与标注一致性，同时确保漏洞利用路径的完整表征。此外，动态测试环境依赖与漏洞可复现性验证进一步增加了数据构建的工程难度，要求跨领域知识融合与标准化流程设计。

常用场景

经典使用场景

在软件安全与漏洞检测领域，djinn-problems-v0.9数据集作为编程问题与漏洞利用的基准测试集，其经典应用场景聚焦于评估自动化代码生成模型的安全性表现。通过提供包含函数描述、测试用例及漏洞利用代码的结构化样本，该数据集能够系统性地检验模型在生成安全代码与识别潜在漏洞方面的能力，为软件开发生命周期中的安全审计环节提供关键支持。

衍生相关工作

基于该数据集衍生的经典研究包括漏洞模式挖掘框架与自适应测试生成系统。多项工作通过融合其漏洞特征标注开发了混合检测模型，部分研究则利用其多维度质量指标构建了动态评估体系。这些衍生成果不仅深化了对代码漏洞传播机制的理解，更催生了新一代智能编程助手的防护模块创新。

数据集最近研究