djinn-problems-skiptest

Name: djinn-problems-skiptest
Creator: EleutherAI
Published: 2025-08-14 19:09:22
License: 暂无描述

Hugging Face2025-08-14 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/djinn-problems-skiptest

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个字段的数据集，用于描述与函数或程序相关的信息，包括标识符、描述、函数名、测试用例、实际结果、漏洞利用方法、不安全验证器、验证器信息、信息泄露方法、漏洞利用解释、预期状态、关键词、评估的难度、利用难度、模型评估结果、漏洞欺骗性、利用公平性、问题质量、问题外观、漏洞发现外观、是否依赖顺序、漏洞类型等。数据集分为训练集和评估集。

提供机构：

EleutherAI

创建时间：

2025-08-14

原始信息汇总

数据集概述

基本信息

数据集名称: djinn-problems-skiptest
发布者: EleutherAI
下载大小: 500929字节
数据集大小: 1027741字节

数据集结构

训练集(train): 88个样本，980501字节
评估集(eval): 4个样本，47240字节

特征字段

基础信息:
- id: 字符串类型，唯一标识符
- description: 字符串类型，问题描述
- function_name: 字符串类型，函数名称
- test_cases: 字符串类型，测试用例
- ground_truth: 字符串类型，真实解
- exploit: 字符串类型，利用方法
安全相关:
- nulls: 字符串列表，空值信息
- insecure_verifier: 字符串类型，不安全验证器
- insecure_verifier_info: 字符串类型，不安全验证器信息
- info_leak_method: 字符串类型，信息泄露方法
- exploit_explanation: 字符串类型，利用方法解释
- exploit_expected_status: 字符串类型，预期状态
评估指标:
- evaluated_gt_difficulty: int64类型，真实解难度评估
- evaluated_exploit_difficulty: int64类型，利用方法难度评估
- vuln_cheatiness: float64类型，漏洞作弊性
- exploit_fairness: float64类型，利用公平性
- problem_quality: float64类型，问题质量
- exploit_finding_appearance: float64类型，利用发现表现
- order_dependent: bool类型，顺序依赖性
- exploit_type: 字符串类型，利用类型
模型结果:
- gt_model_results: 结构体，包含多个模型的真实解结果(bool类型)
- exploit_model_results: 结构体，包含多个模型的利用方法结果(bool类型)
其他信息:
- keywords: 空列表
- problem_appears_as: 字符串类型，问题表现形式

搜集汇总

数据集介绍

构建方式

在软件安全研究领域，djinn-problems-skiptest数据集通过系统化方法构建，收录了88个训练样本和4个评估样本。该数据集采用结构化特征设计，包含函数描述、测试用例、安全漏洞利用等核心字段，并通过多模型评估框架对每个样本进行验证。数据收集过程注重问题多样性，涵盖不同难度等级的安全漏洞场景，同时记录模型在漏洞检测和利用方面的表现。

特点

该数据集最显著的特点是针对软件安全漏洞的多维度标注体系，不仅包含传统的问题描述和测试用例，还详细记录了漏洞利用方法、验证器信息及模型评估结果。特别值得注意的是，数据集采用量化指标评估漏洞隐蔽性、利用公平性等问题质量特征，并整合了包括Claude、Gemini、Qwen等主流大模型在漏洞检测和利用任务上的表现数据。这种综合性的标注方式为研究模型在安全场景下的能力提供了丰富分析维度。

使用方法

研究人员可通过该数据集开展多方面的安全研究，包括但不限于模型漏洞检测能力评估、自动化漏洞利用技术开发以及安全验证器设计。典型使用流程包括加载训练集进行模型微调，利用评估集测试泛化性能，并通过分析exploit_explanation等字段理解漏洞利用机制。数据集中的模型评估结果可直接用于对比不同模型在安全任务上的表现，而质量评分指标则为筛选高质量安全研究样本提供参考。

背景与挑战

背景概述

djinn-problems-skiptest数据集聚焦于软件安全领域中的漏洞检测与利用问题，由专业研究团队构建以评估现代人工智能模型在识别和利用代码漏洞方面的能力。该数据集收录了多种编程场景下的漏洞案例，每个案例包含详细的问题描述、测试用例、真实漏洞信息以及利用方法。其核心研究目标在于推动自动化漏洞检测技术的发展，并为评估大语言模型在安全领域的实际应用提供标准化基准。数据集通过多维度指标量化漏洞的复杂性和模型的检测效果，反映了当前软件安全研究的前沿方向。

当前挑战

该数据集面临的主要挑战体现在两个层面：在领域问题层面，如何准确界定漏洞的边界条件并建立公平的评估标准是一大难题，不同模型对漏洞特征的理解存在显著差异；在构建过程层面，确保漏洞样本的多样性和代表性需要平衡真实场景复杂性与评估可行性，同时标注高质量的漏洞利用方法对专业知识要求极高。数据集还需解决评估指标设计问题，如何量化漏洞检测难度和模型表现仍需深入探索。

常用场景

经典使用场景

在软件安全领域，djinn-problems-skiptest数据集被广泛应用于评估和测试人工智能模型在代码漏洞检测与利用方面的能力。该数据集通过提供包含漏洞描述、测试用例、真实结果及利用方法的结构化数据，为研究人员构建了一个标准化的评测平台。特别是在自动化漏洞挖掘和智能代码审计方向，该数据集能够模拟真实场景下的安全挑战，帮助验证模型的鲁棒性和泛化能力。

实际应用

在实际工程应用中，该数据集被安全团队用于训练和优化自动化漏洞扫描工具，显著提高了企业级代码审计的效率。安全厂商基于该数据集开发的新型检测引擎，能够识别传统静态分析工具难以发现的逻辑漏洞，为金融、政务等关键领域的信息系统提供了更可靠的安全保障。

衍生相关工作

围绕该数据集已产生多项重要研究成果，包括基于深度学习的漏洞模式识别框架、对抗样本生成技术以及多模态代码理解模型。部分工作通过结合该数据集与符号执行技术，开发出混合型漏洞检测系统，在ACM CCS和IEEE S&P等顶级安全会议上发表了突破性论文。

以上内容由遇见数据集搜集并总结生成