securecode-aiml

Hugging Face2026-02-10 更新2026-02-11 收录

下载链接：

https://huggingface.co/datasets/scthornton/securecode-aiml

下载链接

链接失效反馈

官方服务：

资源简介：

SecureCode AI/ML 是一个专注于 AI/ML 安全训练的数据集，旨在帮助 AI 编码助手编写安全代码。数据集覆盖了 OWASP LLM Top 10 2025 的 10 个类别，包含 750 个结构化训练示例，每个示例展示了现实开发场景中的漏洞实现、风险解释和安全替代方案。数据集支持多种编程语言，包括 Python、TypeScript、JavaScript 等，并覆盖了 30 多个 AI/ML 框架。每个示例采用 JSON 格式，包含元数据、上下文描述、对话内容和验证信息。数据集经过严格的质量评估和多代理审查，确保内容的正确性和安全性。适用于安全研究、AI 编码助手训练和安全教育。

创建时间：

2026-02-03

搜集汇总

数据集介绍

构建方式

在人工智能与机器学习安全领域，数据集的构建需兼顾技术深度与教育价值。SecureCode AI/ML数据集通过系统化方法，围绕OWASP LLM Top 10 2025的十大安全类别，精心编制了750个真实世界漏洞示例。每个示例均遵循严格的八阶段修复流程，涵盖从完整重写、针对性修订到自动化脚本修复及最终验证的多个环节。数据集采用多智能体评审机制，由七位专注于安全、代码质量、框架准确性等不同维度的专家模型进行交叉评估，确保每个案例在语法正确性、防御层次完整性及实际攻击向量真实性等方面均达到生产级标准。

特点

该数据集的核心特征在于其高度结构化的教育导向设计。每个示例均呈现为四轮对话格式，模拟开发者与AI助手之间的真实交互场景，依次涵盖漏洞代码展示、安全风险解释、多层防御的安全实现以及测试监控指导。数据集覆盖超过30种主流AI/ML框架，并支持Python、TypeScript等多种编程语言，其中Python案例占比超过90%。所有示例均附带详细元数据，包括严重等级、通用弱点枚举编号及真实世界事件引用，并遵循五层质量评分体系，平均质量分数达93.8分，确保了内容的技术严谨性与教育实用性。

使用方法

为有效利用该数据集进行AI编码助手的安全能力训练，用户可通过HuggingFace Datasets库直接加载，并依据元数据中的OWASP分类进行灵活筛选。数据集采用JSONL格式存储，每个条目包含完整的对话序列、安全断言及验证信息，便于集成至监督微调或强化学习流程。在实际应用中，开发者可重点参考示例中的防御深度指导与监控建议，将其转化为代码审查清单或自动化测试用例。数据集遵循CC BY-NC-SA 4.0许可，明确限定于防御性安全研究与教育用途，禁止用于攻击性漏洞利用或安全控制规避。

背景与挑战

背景概述

随着人工智能与机器学习技术的广泛应用，其安全风险日益凸显，特别是大型语言模型在代码生成等任务中的潜在漏洞。在此背景下，由Scott Thornton及其机构perfecXion.ai于2026年2月创建的SecureCode AI/ML数据集应运而生。该数据集聚焦于OWASP LLM Top 10 2025所定义的十大安全威胁类别，旨在为AI编码助手提供高质量的安全训练数据。通过涵盖Python、TypeScript等多种编程语言及30余种主流AI/ML框架，该数据集致力于提升AI系统在代码生成过程中的安全性，对推动AI安全领域的实证研究与实践应用具有重要价值。

当前挑战

该数据集旨在应对AI/ML系统开发中的核心安全挑战，即如何有效识别并防范如提示注入、敏感信息泄露、供应链漏洞等复杂威胁。这些威胁往往具有隐蔽性强、攻击面广的特点，对模型的鲁棒性与可靠性构成严峻考验。在构建过程中，研究团队面临多重挑战：需确保750个示例均能精准映射到OWASP分类，并保持代码语法正确性与安全逻辑的严谨性；同时，跨多种编程语言与框架的覆盖要求高度的专业知识一致性。此外，通过多智能体审查与八阶段修复流程实现高质量数据标注，亦对资源协调与质量控制提出了极高要求。

常用场景

经典使用场景

在人工智能与机器学习安全领域，SecureCode AI/ML数据集为AI编码助手的安全训练提供了核心支撑。该数据集通过750个结构化示例，覆盖了OWASP LLM Top 10 2025的全部十大类别，每个示例均包含脆弱代码、安全实现及深度防御指导。经典使用场景包括利用这些示例对大型语言模型进行微调，使其在生成代码时能够识别并规避常见的安全漏洞，如提示注入、敏感信息泄露等，从而提升AI辅助开发工具在真实编程环境中的安全可靠性。

解决学术问题

该数据集有效应对了AI安全研究中缺乏高质量、结构化训练数据的挑战。它系统性地解决了如何将抽象的安全原则转化为具体、可操作的代码示例这一学术问题，为模型安全性的量化评估提供了基准。通过涵盖30余种AI/ML框架并关联真实CVE漏洞，数据集促进了安全漏洞模式识别、防御机制自动化生成以及多语言跨平台安全代码生成等研究方向的发展，对构建可信赖的AI开发范式具有奠基意义。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作。例如，基于其多轮对话格式，研究者开发了针对代码生成模型的对抗性安全评估框架，系统测试模型在复杂攻击场景下的鲁棒性。同时，数据集启发了新型防御技术的探索，如结合其深度防御层概念构建的自动化安全补丁生成器。在工具层面，部分开源项目利用该数据集训练了专注于AI安全的静态分析插件，能够无缝集成至主流IDE，为开发者提供实时安全编码建议。

以上内容由遇见数据集搜集并总结生成