djinn-problems-v0.4

Name: djinn-problems-v0.4
Creator: EleutherAI
Published: 2025-08-29 15:03:18
License: 暂无描述

Hugging Face2025-08-29 更新2025-08-31 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/djinn-problems-v0.4

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个字段的数据集，其中包括问题描述、函数名称、测试用例、真实情况、漏洞利用方式等信息。数据集还包含了多个模型对于真实情况和漏洞利用的判断结果。此外，数据集还分为训练集、验证集、备选训练集和备选测试集。

提供机构：

EleutherAI

创建时间：

2025-08-28

原始信息汇总

数据集概述

基本信息

数据集名称: djinn-problems-v0.4
发布者: EleutherAI
总大小: 5,357,232字节
下载大小: 2,236,761字节
配置名称: default

数据特征

数据集包含以下字段：

核心字段

id: 字符串类型，唯一标识符
description: 字符串类型，问题描述
function_name: 字符串类型，函数名称
test_cases: 字符串类型，测试用例
ground_truth: 字符串类型，基准真相
exploit: 字符串类型，漏洞利用代码

安全相关字段

insecure_test_cases: 字符串类型，不安全测试用例
insecure_verifier_info: 字符串类型，不安全验证器信息
info_leak_method: 字符串类型，信息泄露方法
exploit_explanation: 字符串类型，漏洞利用解释
exploit_expected_status: 字符串类型，漏洞利用预期状态
exploit_type: 字符串类型，漏洞利用类型

评估字段

evaluated_gt_difficulty: 整型，评估的基准真相难度
evaluated_exploit_difficulty: 整型，评估的漏洞利用难度
vuln_cheatiness: 浮点型，漏洞作弊程度
exploit_fairness: 浮点型，漏洞利用公平性
problem_quality: 浮点型，问题质量
problem_appears_as: 字符串类型，问题表现形式
exploit_finding_appearance: 浮点型，漏洞发现表现
order_dependent: 布尔型，顺序依赖性

模型评估结果

gt_model_results: 结构体，包含多个模型的基准真相评估结果
exploit_model_results: 结构体，包含多个模型的漏洞利用评估结果

数据分割

数据集包含四个分割：

train: 309个样本，2,303,790字节
eval: 43个样本，374,805字节
train_alternate: 300个样本，2,304,127字节
test_alternate: 52个样本，374,510字节

数据文件位置

训练数据: data/train-*
评估数据: data/eval-*
替代训练数据: data/train_alternate-*
替代测试数据: data/test_alternate-*

搜集汇总

数据集介绍

构建方式

在软件安全领域，漏洞检测数据集的质量直接影响模型评估的可靠性。djinn-problems-v0.4通过系统化方法构建，每个样本包含函数描述、测试用例、真实漏洞代码及利用方案，并采用多模型自动评估框架对生成结果进行验证，确保数据覆盖常见漏洞类型和攻击场景。

使用方法

研究人员可基于该数据集开展漏洞检测模型训练与评估，通过解析描述字段和测试用例构建输入，利用真实漏洞代码作为监督信号。评估时需结合多模型结果对比分析，特别注意利用难度指标和模型表现相关性，以全面衡量检测系统的鲁棒性和泛化能力。

背景与挑战

背景概述

在人工智能安全研究领域，代码漏洞检测与利用生成始终是保障软件安全的核心议题。djinn-problems-v0.4数据集由专业安全研究团队构建，专注于评估大型语言模型在识别和利用软件漏洞方面的能力。该数据集通过系统化收集包含安全缺陷的编程问题及其对应的漏洞利用方案，为AI模型的代码安全分析性能提供了标准化评估基准，显著推动了智能代码审计技术的发展与应用。

当前挑战

该数据集致力于解决代码漏洞自动检测与利用生成的复杂挑战，包括模型对多样化漏洞模式的识别精度、对抗性测试用例的构建以及真实环境下的漏洞利用可行性评估。在构建过程中，研究团队面临多重技术难题：如何确保漏洞样本的多样性和代表性，如何设计公平且全面的评估指标来衡量不同模型的性能差异，以及如何平衡漏洞难度级别以保证数据集的科学性与实用性。

常用场景

经典使用场景

在软件安全研究领域，djinn-problems-v0.4数据集被广泛应用于评估大型语言模型在代码漏洞检测与利用方面的能力。该数据集通过精心设计的函数测试用例和安全漏洞场景，为研究者提供了标准化基准来检验模型对代码安全性的理解深度。典型应用包括模型在识别缓冲区溢出、输入验证缺陷等常见安全漏洞方面的性能评估，以及模型生成安全补丁或利用代码的可靠性测试。

解决学术问题

该数据集有效解决了人工智能辅助编程中安全可靠性评估的量化难题，为研究社区提供了统一的漏洞检测基准测试框架。通过包含多种漏洞类型和难度级别的实例，它使得系统化评估模型在真实安全场景下的表现成为可能，显著推进了智能代码生成系统的安全性研究。数据集的多维度评估指标为理解模型在安全敏感任务中的局限性提供了重要依据，填补了代码生成模型安全性评估标准化工具的空白。

实际应用

在实际软件开发周期中，该数据集支撑了自动化代码审计工具的开发与优化，帮助构建更可靠的智能编程助手。安全工程师利用其丰富的漏洞案例训练和测试静态分析工具，提升对潜在安全风险的检测覆盖率。教育机构则借助这些精心设计的漏洞场景，培养开发人员的安全编码意识和漏洞识别能力，从源头上减少软件安全缺陷的产生。

数据集最近研究