TOSSS (Two-Option Secure Snippet Selection)

Name: TOSSS (Two-Option Secure Snippet Selection)
Creator: 特文特大学; 阿姆斯特丹CWI研究所; 鹿特丹伊拉斯谟大学; Datadog; 莱昂纳多达芬奇高等工程师学院; 莱顿大学
Published: 2026-03-12 00:54:01
License: 暂无描述

arXiv2026-03-12 更新2026-03-13 收录

下载链接：

https://github.com/MarcT0K/TOSSS-LLM-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

TOSSS是由特文特大学等机构联合开发的代码安全基准测试数据集，旨在评估大型语言模型识别安全代码片段的能力。该数据集基于CVE数据库构建，通过MegaVul自动化管道提取了C/C++和Java语言中安全修复前后的函数级代码对，形成可扩展的测试案例。数据生成过程完全自动化，能够持续集成新披露的漏洞。该数据集主要应用于软件安全领域，用于量化LLMs在代码安全决策中的表现，并为模型安全性能提供标准化评估框架。

提供机构：

特文特大学; 阿姆斯特丹CWI研究所; 鹿特丹伊拉斯谟大学; Datadog; 莱昂纳多达芬奇高等工程师学院; 莱顿大学

创建时间：

2026-03-12

原始信息汇总

TOSSS-LLM-Benchmark 数据集概述

数据集简介

TOSSS（Two-Option Secure Snippet Selection）是一个基于CVE（通用漏洞披露）的软件安全基准测试，旨在评估大型语言模型（LLMs）在安全代码片段与易受攻击代码片段之间进行正确选择的能力。

核心目标

衡量LLMs在软件安全方面的能力。
为LLM提供一个介于0到1之间的安全评分：1分表示模型始终选择安全代码片段，0分表示始终选择易受攻击的代码片段。

数据来源与构建方法

基准测试直接依赖于从CVE数据库中挖掘的测试用例。
利用项目MegaVul提取安全修复前后的函数。
要求LLMs在同一函数的安全版本和易受攻击版本之间做出选择。

基准测试特点

覆盖范围广：与现有仅覆盖有限漏洞类型的安全基准不同，TOSSS基于CVE数据库，提供了一个可扩展的框架，能够随时间整合新披露的漏洞。
语言支持：评估涵盖C/C++和Java代码。
可扩展性：由于与CVE数据库对接，新漏洞和新语言可以轻松集成，确保基准测试保持最新，并能测试模型对新兴弱点的识别能力。

评估结果

在14个广泛使用的开源和闭源模型上进行了评估。
观察到的安全评分范围在0.48到0.89之间。

应用前景

TOSSS评分可作为LLM提供商现有基准测试报告的补充，纳入以安全为重点的评分指标。

相关资源

论文链接：https://arxiv.org/abs/2603.10969
基准测试流程示意图：https://github.com/MarcT0K/TOSSS-LLM-Benchmark/blob/main/assets/benchmark-schema.drawio.png
项目标识：https://github.com/MarcT0K/TOSSS-LLM-Benchmark/blob/main/assets/tosss-logo.png

搜集汇总

数据集介绍

构建方式

在软件安全评估领域，传统基准测试常受限于静态分析工具的覆盖范围。TOSSS数据集采用了一种创新的构建方法，其核心在于从CVE数据库中自动挖掘真实漏洞修复案例。该方法依托MegaVul自动化管道，系统性地提取每个漏洞在修复前后的函数级代码实现，从而形成一一对应的安全与脆弱代码片段对。这种基于真实世界安全补丁的构建方式，确保了数据来源的可靠性与时效性，并能通过持续集成新披露的CVE条目实现动态扩展，有效克服了传统基准测试在覆盖面和更新能力上的固有局限。

特点

该数据集的设计体现了多重显著特点。其首要优势在于卓越的扩展性，能够无缝纳入新出现的漏洞类型和编程语言，这得益于其与CVE数据库的深度集成机制。其次，评估框架具有高度可解释性，模型的安全得分被定义为选择安全代码片段的概率，数值在0到1之间直观反映了模型的安全倾向。再者，数据集的构建确保了评估的一致性，它将模型输出严格约束为简单的‘A’或‘B’选择，避免了代码生成任务中因输出格式复杂多变而引入的评估噪声。这些特点共同构成了一个面向未来、易于解读且稳健可靠的评估基准。

使用方法

在具体应用层面，TOSSS数据集的使用方法清晰而高效。评估者向大型语言模型呈现一对功能相同但安全性对立的代码片段，要求模型在无提示或明确安全提示的两种设定下做出选择。通过计算模型在所有测试用例中选择安全版本的比例，即可得出其安全得分。这种方法将复杂的代码生成安全评估，简化为一个直接的二分类判别任务，大幅降低了评估的计算复杂性和实施门槛。研究人员或开发者可以利用其开源代码库，便捷地对不同模型进行标准化测试，从而量化比较它们在代码安全层面的认知与决策能力。

背景与挑战

背景概述

随着大型语言模型在软件工程领域的广泛应用，其生成代码的安全性成为亟待评估的关键问题。TOSSS数据集由荷兰特温特大学、CWI阿姆斯特丹研究所等机构的研究团队于2026年创建，旨在构建一个基于通用漏洞披露数据库的可扩展安全基准。该数据集通过对比安全与脆弱代码片段的选择行为，量化评估大型语言模型在软件安全领域的认知能力，为人工智能辅助编程工具的安全性能提供了标准化度量框架，推动了代码生成安全评估方法学的范式转变。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，现有基准测试难以覆盖快速演化的网络安全威胁谱系，静态分析工具的检测范围限制了漏洞类型的评估广度；在构建过程层面，如何从海量开源代码库中精准提取成对的漏洞修复案例，并确保测试用例在编程语言、漏洞类型和时间维度上的可扩展性，构成了数据采集与标注的技术瓶颈。同时，保持评估框架与真实开发场景的相关性，避免因任务简化导致的生态效度损失，也是方法论设计的重要考量。

常用场景

经典使用场景

在软件安全与人工智能交叉领域，TOSSS数据集作为评估大型语言模型安全编码能力的基准工具，其经典使用场景聚焦于模型在无提示或明确安全提示下，对成对代码片段进行安全选择的能力测试。该数据集通过从CVE数据库中自动挖掘真实漏洞修复案例，构建了包含安全与脆弱版本函数对的大规模测试集，为研究者提供了标准化、可扩展的评估框架，以量化模型在识别安全代码方面的表现。

实际应用

在实际应用层面，TOSSS数据集被广泛用于指导企业级编码助手的安全优化与模型选型。开发团队可依据该基准的评分结果，筛选出在安全代码选择上表现优异的大型语言模型，集成至软件开发工作流中，以降低生成代码引入漏洞的风险。同时，该数据集支持对模型进行安全提示策略的测试，帮助设计更有效的系统提示词，从而提升AI辅助编程工具在真实生产环境中的安全可靠性。

衍生相关工作

TOSSS数据集的创新方法论催生了一系列关注模型安全推理能力的衍生研究。例如，基于其代码选择范式，后续工作探索了将类似评估框架扩展至更多编程语言及漏洞类型。同时，该数据集启发了对模型训练数据质量的深入分析，促使研究社区考虑在预训练阶段过滤已修复漏洞代码，或利用CVE数据进行针对性微调。此外，其简洁的评估形式也为结合思维链提示等复杂推理方法提升模型安全判断能力提供了实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集