djinn-problems-v0.6

Name: djinn-problems-v0.6
Creator: EleutherAI
Published: 2025-09-10 09:18:02
License: 暂无描述

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/djinn-problems-v0.6

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了与软件漏洞利用相关的信息，如漏洞描述、函数名称、测试用例、真实情况、利用方式、不安全测试用例等。还包括了针对不同模型的结果、漏洞的欺骗性、利用的公平性、问题质量、问题外观、利用发现的外观、是否依赖于顺序、利用类型等特征。数据集分为训练集、评估集、替代训练集和替代测试集四个部分。

This dataset contains information relevant to software vulnerability exploitation, including vulnerability descriptions, function names, test cases, ground truth, exploitation methods, unsafe test cases, and more. It also encompasses features such as model-specific results, exploit deception, exploitation fairness, problem quality, problem appearance, appearance of exploit discoveries, sequence dependence, exploit types, and other related characteristics. The dataset is split into four subsets: training set, evaluation set, alternative training set, and alternative test set.

提供机构：

EleutherAI

创建时间：

2025-09-10

原始信息汇总

EleutherAI/djinn-problems-v0.6 数据集概述

数据集基本信息

数据集名称：djinn-problems-v0.6
发布机构：EleutherAI
总大小：9.72 MB（下载大小：3.84 MB）
总样本数：1,336 条

数据特征

数据集包含以下字段：

id：字符串类型，样本唯一标识
description：字符串类型，问题描述
function_name：字符串类型，函数名称
test_cases：字符串类型，测试用例
ground_truth：字符串类型，基准真值
exploit：字符串类型，漏洞利用代码
insecure_test_cases：字符串类型，不安全测试用例
insecure_verifier_info：字符串类型，不安全验证器信息
info_leak_method：字符串类型，信息泄露方法
exploit_explanation：字符串类型，漏洞利用解释
exploit_expected_status：字符串类型，预期利用状态
keywords：空列表
evaluated_gt_difficulty：整型，评估的基准真值难度
evaluated_exploit_difficulty：整型，评估的漏洞利用难度
gt_model_results：结构体，包含多个模型的基准真值测试结果
exploit_model_results：结构体，包含多个模型的漏洞利用测试结果
vuln_cheatiness：浮点型，漏洞作弊程度
exploit_fairness：浮点型，漏洞利用公平性
problem_quality：浮点型，问题质量评分
problem_appears_as：字符串类型，问题表现形式
exploit_finding_appearance：浮点型，漏洞发现表现度
order_dependent：布尔型，顺序依赖性
exploit_type：字符串类型，漏洞利用类型

数据划分

数据集包含四个划分：

train：625 个样本，4.51 MB
eval：43 个样本，0.35 MB
train_alternate：568 个样本，4.18 MB
test_alternate：100 个样本，0.68 MB

模型评估结果

数据集包含以下模型的评估结果：

openrouter/anthropic/claude-sonnet-4
openrouter/deepseek/deepseek-r1-0528-qwen3-8b
openrouter/google/gemini-2.5-flash
openrouter/google/gemini-2.5-pro
openrouter/mistralai/magistral-small-2506
openrouter/qwen/qwen3-8b
openrouter/x-ai/grok-3-mini-beta

搜集汇总

数据集介绍

构建方式

在软件安全领域，djinn-problems-v0.6数据集通过系统化方法构建，包含625个训练样本和43个评估样本。每个样本均配备详细的问题描述、函数名称、测试用例及安全漏洞利用信息，并采用多模型评估框架对生成结果进行验证。数据集通过结构化字段记录漏洞特征和模型表现，确保数据构建的科学性与可重复性。

特点

该数据集突出表现为多维度安全评估特性，涵盖漏洞利用说明、信息泄露方法及漏洞难度评级。其独特之处在于集成多个先进语言模型的评估结果，包括Claude Sonnet、Gemini系列及DeepSeek等，并提供漏洞公平性和问题质量等量化指标。这些特征为研究软件安全漏洞的自动检测与修复提供了丰富的数据支撑。

使用方法

研究人员可通过加载标准数据分割（train/eval/alternate）进行模型训练与评估，重点关注ground_truth与exploit字段的对比分析。利用insecure_test_cases和vuln_cheatiness等指标可深入分析模型在安全漏洞识别方面的性能。该数据集适用于自动化代码修复、漏洞检测算法开发及大语言模型在软件安全领域的能力评估。

背景与挑战

背景概述

在人工智能安全研究领域，代码漏洞检测与利用生成一直是保障软件安全的核心议题。djinn-problems-v0.6数据集由专业安全研究团队构建，专注于评估大语言模型在识别代码漏洞和生成有效利用代码方面的能力。该数据集通过精心设计的函数测试用例、安全验证信息和漏洞利用解释，为模型安全性评估提供了标准化基准，显著推动了智能代码审计与自动化漏洞挖掘技术的发展。

当前挑战

该数据集致力于解决代码漏洞自动检测与利用生成的复杂性挑战，包括模型对多种漏洞类型的识别精度、利用代码的生成有效性以及对抗性测试的鲁棒性。构建过程中面临多重困难：需要精确标注漏洞代码与安全代码的细微差别，确保测试用例的全面性和代表性，同时维护漏洞利用代码的准确性与可复现性，还要平衡数据集的难度分布以全面评估模型性能。

常用场景

经典使用场景

在软件安全研究领域，djinn-problems-v0.6数据集为代码漏洞检测与利用技术提供了标准化评估基准。该数据集通过625个训练样本和43个评估样本，系统性地呈现了函数级代码漏洞的多种形态，包括测试用例、安全验证信息和漏洞利用方法等关键特征。研究人员可借助该数据集构建端到端的漏洞分析管道，从漏洞识别到利用方案生成形成完整的研究闭环。

衍生相关工作

基于该数据集衍生出了一系列重要的研究工作，特别是在大语言模型安全能力评估方面产生了深远影响。研究人员利用其多模型对比评估框架，开展了大规模语言模型在代码安全领域的能力基准测试，催生了多个针对代码漏洞检测的专用模型架构。这些工作不仅推动了模型安全评估方法论的发展，还为构建更安全的代码生成系统提供了重要技术积累。

数据集最近研究