five

VADER

收藏
arXiv2025-05-26 更新2025-05-28 收录
下载链接:
https://github.com/AfterQuery/vader
下载链接
链接失效反馈
官方服务:
资源简介:
VADER数据集是一个由安全专家人工评估的基准数据集,旨在评估大型语言模型在软件漏洞评估、检测、解释和修复方面的性能。数据集包含174个真实世界软件漏洞案例,每个案例都是从GitHub存储库中精心挑选并由安全专家注释的。VADER数据集的创建过程经过严格的审核,以确保每个案例都包含准确的漏洞信息、修复方案和验证测试。数据集旨在推动漏洞感知型大型语言模型的发展,为软件安全领域提供可解释和可复现的基准。

The VADER dataset is a benchmark dataset manually evaluated by cybersecurity experts, aiming to assess the performance of large language models (LLMs) in software vulnerability assessment, detection, explanation, and remediation. It contains 174 real-world software vulnerability cases, each carefully selected from GitHub repositories and annotated by cybersecurity experts. The development process of the VADER dataset has undergone rigorous review to ensure that each case includes accurate vulnerability information, remediation solutions, and validation tests. This dataset is designed to advance the development of vulnerability-aware large language models, providing an explainable and reproducible benchmark for the field of software security.
提供机构:
加州大学伯克利分校
创建时间:
2025-05-26
搜集汇总
数据集介绍
main_image_url
构建方式
VADER数据集的构建采用了严格的双重标注流程,确保数据的高质量和可靠性。首先,安全专家从开源软件中识别并提交真实的非平凡漏洞案例,每个案例包括相关代码片段、CWE分类、自然语言解释、修复补丁和测试计划。随后,这些提交由至少具有6年网络安全经验的独立评审员进行验证,确保漏洞的真实性、解释的准确性、补丁的有效性以及测试计划的完备性。这一过程不仅涵盖了15种编程语言,还特别关注了多文件和多语言环境下的复杂漏洞场景,从而构建了一个全面且具有挑战性的基准数据集。
特点
VADER数据集的特点在于其全面性和真实性。数据集包含174个真实世界的软件漏洞案例,涵盖了从漏洞检测、分类、解释到修复和测试计划生成的完整生命周期。这些案例来自多种编程语言,包括JavaScript、Python、TypeScript等,并且75%的案例涉及多语言环境,23%的案例涉及多达四个源文件,反映了生产级代码的复杂性。此外,数据集特别关注高严重性漏洞(41%为高严重性,20%为关键严重性),确保了评估的实用性和挑战性。每个案例都经过安全专家的严格标注和验证,提供了可靠的基准数据。
使用方法
VADER数据集的使用方法主要围绕其设计的四个关键任务:漏洞分类、解释、修复和测试计划生成。研究人员可以通过一次性提示策略(one-shot prompting)对大型语言模型(LLM)进行评估,要求模型识别漏洞、分类CWE、解释根本原因、提出修复补丁并生成测试计划。评估采用严格的评分标准,重点关注修复质量(50%)、解释准确性(20%)以及分类和测试计划(30%)。数据集提供了详细的评分工具和可视化结果,支持可重复的基准测试。所有代码和数据均公开可用,便于社区进一步研究和改进漏洞感知的LLM模型。
背景与挑战
背景概述
VADER(Vulnerability Assessment, Detection, Explanation, and Remediation)是由AfterQuery团队与加州大学伯克利分校和宾夕法尼亚大学的研究人员于2025年联合推出的一个人类评估基准数据集。该数据集专注于评估大型语言模型(LLMs)在软件漏洞处理四个关键维度上的性能:评估、检测、解释和修复。VADER包含174个从GitHub仓库中精心挑选的真实世界软件漏洞案例,每个案例均由安全专家进行标注,涵盖了15种编程语言和多种漏洞类型。该数据集的推出填补了现有基准在漏洞解释和修复验证方面的空白,为构建更安全的软件系统提供了重要的评估工具。
当前挑战
VADER数据集面临的挑战主要体现在两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,VADER旨在解决的挑战包括如何准确评估LLMs在漏洞检测、分类、解释和修复方面的综合能力,特别是在多语言环境和复杂代码库中的表现。在构建过程中,研究人员需要克服的挑战包括:1) 从真实项目中收集和验证高质量漏洞案例的难度;2) 确保多语言漏洞标注的一致性和准确性;3) 设计全面的评估标准以覆盖漏洞处理的各个环节;4) 处理多文件代码库中的复杂漏洞场景。这些挑战使得VADER的构建成为一个资源密集且技术要求高的过程。
常用场景
经典使用场景
在软件安全研究领域,VADER数据集为评估大型语言模型在漏洞处理全流程中的表现提供了标准化测试平台。该数据集通过精心设计的四阶段评估协议(漏洞评估、检测、解释和修复),使研究人员能够系统性地测试模型在真实漏洞场景下的综合能力,特别是在多语言代码环境和跨文件复杂逻辑场景中的表现。
实际应用
该数据集已实际应用于主流AI代码助手的性能优化,GitHub Copilot等工具通过VADER评估结果改进其漏洞修复建议机制。在工业界安全审计流程中,企业采用VADER的评估框架对内部代码审查AI进行基准测试,其多语言覆盖特性尤其适用于评估现代化技术栈的混合编程环境。
衍生相关工作
基于VADER的评估方法论,后续研究衍生出多个重要方向:SECUREVAL改进了跨语言漏洞的评估粒度,MULTIVUL扩展了多文件交互漏洞的测试场景。在模型架构方面,VULTRANSFORMER等工作借鉴VADER的修复质量评估指标,开发了专注于漏洞修复的专用Transformer变体。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作