djinn-problems-v0.5

Name: djinn-problems-v0.5
Creator: EleutherAI
Published: 2025-09-08 13:05:15
License: 暂无描述

Hugging Face2025-09-08 更新2025-09-10 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/djinn-problems-v0.5

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含多个字段，用于描述测试用例、验证信息、漏洞利用方式、模型结果等信息的数据集。它分为训练集、评估集、备选训练集和备选测试集，适用于机器学习模型的训练和评估。

提供机构：

EleutherAI

创建时间：

2025-09-08

原始信息汇总

数据集概述

基本信息

数据集名称：EleutherAI/djinn-problems-v0.5
总大小：5,442,058 字节
下载大小：2,218,077 字节
配置名称：default

数据特征

特征数量：24个
主要特征：
- id：字符串类型
- description：字符串类型
- function_name：字符串类型
- test_cases：字符串类型
- ground_truth：字符串类型
- exploit：字符串类型
- insecure_test_cases：字符串类型
- insecure_verifier_info：字符串类型
- info_leak_method：字符串类型
- exploit_explanation：字符串类型
- exploit_expected_status：字符串类型
- keywords：空列表
- evaluated_gt_difficulty：int64类型
- evaluated_exploit_difficulty：int64类型
- gt_model_results：结构体类型
- exploit_model_results：结构体类型
- vuln_cheatiness：float64类型
- exploit_fairness：float64类型
- problem_quality：float64类型
- problem_appears_as：字符串类型
- exploit_finding_appearance：float64类型
- order_dependent：布尔类型
- exploit_type：字符串类型

数据分割

train：318个样本，2,353,423字节
eval：42个样本，367,585字节
train_alternate：306个样本，2,316,214字节
test_alternate：54个样本，404,836字节

模型评估结果

gt_model_results和exploit_model_results包含以下模型的布尔类型评估结果：
- openrouter/anthropic/claude-sonnet-4
- openrouter/deepseek/deepseek-r1-0528-qwen3-8b
- openrouter/google/gemini-2.5-flash
- openrouter/google/gemini-2.5-pro
- openrouter/mistralai/magistral-small-2506
- openrouter/qwen/qwen3-8b
- openrouter/x-ai/grok-3-mini-beta

搜集汇总

数据集介绍

构建方式

在软件安全领域，djinn-problems-v0.5数据集通过精心设计的漏洞编程问题构建而成。每个样本包含函数描述、测试用例及安全漏洞利用信息，数据源自人工设计的漏洞场景与自动化测试框架的结合，确保了问题的多样性和真实性。构建过程中还引入了多模型评估机制，通过多个先进语言模型对问题的正确性和漏洞利用难度进行验证，形成了高质量的标准数据集。

使用方法

研究人员可利用该数据集进行代码漏洞检测模型的训练与评估。典型应用包括监督学习场景下的漏洞分类任务，以及测试模型在漏洞利用方面的能力。使用时应根据研究目标选择适当的数据分割，如使用train分割进行模型训练，eval分割进行验证。数据集中的多模型评估结果可作为基准参考，帮助研究者比较不同模型在代码安全领域的性能表现。

背景与挑战

背景概述

在人工智能安全研究领域，djinn-problems-v0.5数据集代表了针对代码漏洞检测与利用生成任务的重要基准。该数据集由专业安全研究团队构建，专注于评估大型语言模型在识别软件安全漏洞和生成有效利用代码方面的能力。其核心研究问题涉及如何通过自动化方法发现程序中的安全缺陷，并生成相应的攻击向量，这对提升软件安全性和AI系统的可靠性具有深远影响。数据集通过精心设计的测试用例和真实漏洞场景，为研究社区提供了评估模型安全分析能力的标准化平台。

当前挑战

该数据集主要解决代码安全分析领域的双重挑战：一是如何准确识别复杂程序中的潜在漏洞，二是如何生成有效的漏洞利用代码。构建过程中面临数据质量控制的严峻考验，需要确保每个漏洞案例的真实性和代表性，同时平衡不同漏洞类型的分布。另一个关键挑战在于设计公平的评估框架，避免模型通过记忆而非推理获得高分，这要求构建者精心设计测试用例并建立多维度的评估指标体系。

常用场景

经典使用场景

在软件安全研究领域，djinn-problems-v0.5数据集为代码漏洞检测与利用技术提供了标准化评估框架。该数据集通过包含函数描述、测试用例、安全漏洞和利用代码等结构化字段，使研究人员能够系统性地评估大语言模型在代码生成过程中的安全性能。典型应用包括测试模型是否能够识别潜在的安全漏洞，并生成相应的利用代码，从而衡量模型在代码安全方面的能力。

解决学术问题

该数据集有效解决了代码生成模型中安全漏洞检测的量化评估难题。通过提供标准化的漏洞样本和利用案例，研究人员能够客观比较不同模型在识别缓冲区溢出、信息泄露等常见安全漏洞方面的性能。数据集中的难度评分和质量评估指标为学术界提供了可靠的基准，推动了代码安全生成领域的标准化研究进程，填补了该领域缺乏系统化评估数据的空白。

实际应用

在实际应用层面，该数据集为软件开发行业提供了重要的安全测试资源。安全工程师可以基于数据集中的漏洞模式开发更强大的静态代码分析工具，提升企业级代码审查的效率和准确性。同时，该数据集还能用于培训开发人员识别常见的安全漏洞模式，增强其编写安全代码的意识和能力，从而在软件开发生命周期早期预防安全漏洞的产生。

数据集最近研究