five

Nemotron-Content-VISafe-v1

收藏
Hugging Face2026-06-30 更新2026-07-01 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Content-VISafe-v1
下载链接
链接失效反馈
官方服务:
资源简介:
VISafe是一个专门用于评估AI模型安全性和护栏行为的越南语安全评估探针数据集。它包含3,212个经过验证的越南语文本探针,涵盖越狱、毒性、错误信息、提示注入、越南特定政治敏感性、网络犯罪、过度拒绝和隐私等八个核心安全类别。数据集采用混合构建方法:一部分探针从英文安全基准(如Garak、HarmBench、AdvBench和StrongREJECT)翻译而来;另一部分为1,500个越南语原生探针,通过确定性模板从人工策划的种子提示生成,并经过自动化验证和最终人工审查。数据以JSON Lines格式存储,采用UTF-8编码。每条记录包含越南语提示文本(prompt_vi)以及丰富的元数据,如唯一ID、类别、子类别、风险等级、预期行为(如拒绝、允许等)、检测策略(如LLM判断、关键词规则等)等16个字段。数据规模方面,总记录数为3,212条,越南语原生探针占46.7%。提示文本字符数从10到6,021不等,平均248.2字符。类别分布以越狱(44.0%)和毒性(16.8%)为主,预期行为以拒绝(92.0%)为主,风险等级以高风险(71.0%)为主。该数据集专为越南语AI安全评估、护栏和拒绝测试、红队和鲁棒性测试、越南本地化风险评估以及过度拒绝测量而设计。目标用户包括AI安全研究人员、多语言模型评估团队、护栏和内容审核系统开发者、红队和模型风险评估团队以及政策与负责任AI审查员。数据集仅用于评估和红队目的,不得用于训练通用对话模型或生成实际有害内容,使用时需遵循负责任AI指南并注意内容包含对抗性、有害和敏感元素。
提供机构:
NVIDIA
创建时间:
2026-06-30
原始信息汇总

数据集概述:NVIDIA Nemotron-Content-VISafe-v1

基本信息

  • 数据集名称:Nemotron-Content-VISafe-v1
  • 数据集所有者:NVIDIA Corporation
  • 创建日期:2026年5月1日
  • 版本:Version 1.0
  • 许可证:NVIDIA SAMPLE DATA LICENSE
  • 语言:越南语(vi),拉丁字母加越南语变音符号
  • 数据格式:JSON Lines (.jsonl),UTF-8编码
  • 总存储大小:约3.1 MB

数据集规模与构成

  • 总记录数:3,212条经验证的探针(probes)
  • 来源构成
    • 越南语原生生成/策展探针:1,500条(46.7%)
    • 从Garak翻译:655条(20.4%)
    • 从AdvBench翻译:520条(16.2%)
    • 从StrongREJECT翻译:276条(8.6%)
    • 从HarmBench翻译:261条(8.1%)
  • 各维度分布
    • 提示长度分布
      • 非常短(0-100字符):1,124条(35.0%)
      • 中等(101-500字符):1,777条(55.3%)
      • 长(501-1000字符):137条(4.3%)
      • 非常长(1001-5000字符):172条(5.4%)
      • 极长(5000+字符):2条(0.1%)
      • 最小长度:10字符,最大长度:6,021字符,均值:248.2字符,中位数:116字符
    • 违规类别分布
      • 越狱(Jailbreak):1,413条(44.0%)
      • 有害性(Toxicity):539条(16.8%)
      • 错误信息(Misinformation):414条(12.9%)
      • 注入(Injection):278条(8.7%)
      • 政治敏感(Political):220条(6.8%)
      • 网络犯罪(Cybercrime):121条(3.8%)
      • 过度拒绝(Over-refusal):121条(3.8%)
      • 隐私(Privacy):106条(3.3%)
    • 预期行为分布
      • 拒绝(Refuse):2,956条(92.0%)
      • 允许(Allow):121条(3.8%)
      • 中立回应(Neutral response):74条(2.3%)
      • 警告并拒绝(Warn and refuse):61条(1.9%)
    • 风险等级分布
      • 高(High):2,280条(71.0%)
      • 关键(Critical):494条(15.4%)
      • 中(Medium):257条(8.0%)
      • 低(Low):181条(5.6%)
    • 检测策略分布
      • LLM法官(LLM judge):3,182条(99.1%)
      • 关键词规则(Keyword rule):22条(0.7%)
      • 模式匹配(Pattern match):8条(0.2%)

数据采集与标注方法

  • 数据采集:混合方法(人工、合成、自动化、人工审核)
    • 人工设计输入:越南语模板、槽位、类别映射、语言配置、验证阈值和预期行为配置
    • 翻译来源:从Garak、HarmBench、AdvBench、StrongREJECT等英语安全基准翻译,使用翻译模型openai/gpt-oss-120b或Qwen/Qwen3-235B-A22B
    • 越南语原生来源:1,500条来自人工配置的探针,通过确定性模板生成扩展
    • 自动化验证:检查必填字段、最小提示长度、越南语字符/变音符号、必要类别及注入子类别
    • 最终人工审核与修正:越南语审阅者手动检查、纠正翻译/模板问题并解决质量或分类错误
  • 标注方法:混合方法(人工标注、合成、自动化)
    • 越南语原生探针:从策展种子和确定性规范生成,标签自动分配
    • 翻译探针:元数据继承并标准化为VISafe分类体系
    • 标签类型:expected_behavior(refuse, warn_and_refuse, neutral_response, allow), detection_strategy(llm_judge, pattern_match, keyword_rule)

预期用途

  • 主要用途
    • 越南语AI安全评估
    • 护栏和拒绝测试
    • 红队测试和鲁棒性测试
    • 越南本地化风险评估
    • 过度拒绝测量
  • 目标用户:AI安全研究人员、多语言模型评估团队、护栏和内容审核系统开发者、红队和模型风险评估团队、政策/信任与安全/负责任AI审阅者
  • 非预期用途:未经严格安全过滤直接训练对话模型、生成有害内容用于真实场景、用作面向用户的产品内容、仅凭此基准声明生产环境安全性、违反上游数据集许可或法律

数据集内容特征

  • 覆盖越南本地平台、社会情境、区域与民族身份用语、本地诈骗、公共安全与医疗错误信息、网络犯罪、隐私和政治敏感话题
  • 提示注入覆盖:直接提示注入、RAG注入、同形字、零宽字符、双向覆盖、Unicode规范化和嵌入/输入法编码模式
  • 过度拒绝探针为良性但敏感的越南语提示,预期应被允许而非拒绝
  • 数据集包含有害和敏感内容,仅供评估和红队测试使用,不应用于通用对话模型训练

引用与上游来源

  • 上游数据集:Garak、HarmBench、AdvBench、StrongREJECT
  • 上游来源链接
    • Garak:https://github.com/NVIDIA/garak
    • HarmBench:https://github.com/centerforaisafety/HarmBench
    • StrongREJECT:https://github.com/alexandrasouly/strongreject
  • 翻译模型:openai/gpt-oss-120b 和 Qwen/Qwen3-235B-A22B,通过NVIDIA托管的OpenAI兼容API端点

使用伦理与责任

  • 仅供安全评估、红队测试、护栏开发和经批准的研究使用
  • 不得将有害提示操作化或用于促进网络犯罪、骚扰、错误信息、自我伤害、规避或隐私侵犯
  • 有害内容应附带内容警告和访问控制
  • 不应将通过VISafe测试视为越南语生产环境安全的充分证明
  • 重新分发前需确认源许可证、发布批准和当地法律要求
搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-Content-VISafe-v1 数据集专为越南语 AI 安全评估而构建,采用混合数据采集策略。其构成来源包括从 Garak、HarmBench、AdvBench 和 StrongREJECT 等权威英文安全基准翻译而来的探针,以及通过确定性模板扩展从人工策划的种子提示生成的越南语原生探针。构建流程涵盖人工设计输入、自动翻译与模板生成、基于规则的自动验证,以及最终由越南语审查员进行人工校对与修正,以确保语义准确与分类一致性。
特点
该数据集包含 3,212 条越南语安全评估探针,覆盖越狱、毒性、错误信息、提示注入、越南特定政治敏感性、网络犯罪、过度拒绝及隐私八大类别。每条记录均包含类别、子类别、风险等级、预期行为及检测策略等丰富元数据。探针长度分布广泛,从极短到极长均有涉及,尤其注重越南本土语境,如本地平台、社会骗局及地域性敏感话题,并引入了 Unicode 混淆、同形字等复杂注入模式。
使用方法
数据集以 JSONL 格式发布,框架无关,可直接集成于支持自定义 JSONL 输入的任何评估系统。核心字段为越南语提示(prompt_vi),用户可采用 OpenAI 兼容的模型端点进行推理,并配合内置的启发式规则或 LLM-as-judge 评分机制进行安全判定。推荐使用提供的 Python 脚本快速启动评估,通过指定模型与可选的裁判模型输出结果,支持按类别筛选与样本量控制,便于在 NeMo 等评估流水线中复用。
背景与挑战
背景概述
随着多语言大语言模型在全球范围内的广泛部署,越南语作为拥有超过九千万使用者的重要语言,其安全对齐与风险评估成为人工智能治理中不可回避的议题。由NVIDIA公司于2026年5月创建的Nemotron-Content-VISafe-v1数据集,旨在解决越南语AI安全评估中基准缺失的核心问题。该数据集融汇了来自Garak、HarmBench、AdvBench和StrongREJECT等国际知名安全基准的翻译探针,并搭配了基于确定性模板生成的1,500条越南语原生探针,共计3,212条高质量验证文本。其核心研究问题聚焦于评估模型在越狱攻击、毒性、误导信息、提示注入、越南特定政治敏感性、网络犯罪、过度拒答以及隐私等八大安全关键维度上的表现,为越南语AI系统的安全护栏开发、红队测试与鲁棒性验证提供了标准化评测工具。该数据集尚未正式发表论文,但凭借其多元化的数据来源、精细化的标注流程以及对越南本土社会文化语境的深入覆盖,有望成为越南语AI安全研究领域的标杆性资源。
当前挑战
在领域问题层面,VISafe首要应对的是越南语AI模型在多语言安全对齐中面临的文化与语言特异性挑战。与英语不同,越南语的表达方式、社会禁忌、政治敏感话题以及网络犯罪的本地化形态(如本地平台诈骗、公共安全谣言等)往往难以通过简单翻译直接检测,导致模型可能对安全关键请求做出不当回应。此外,提示注入攻击中的同形异码、零宽度字符、双向覆盖等复杂混淆技术,更对检测系统提出了严苛要求。在构建过程中,数据集面临多重挑战:来自英文基准的翻译探针需确保语义保真与越南语语境适配,避免文化失真;原生探针的生成则依赖确定性模板而非大语言模型生成,以维护过程可审计性与可复现性。最终验证环节,越南语评审员需对每一条探针进行人工校正,确保翻译与模板质量无误,这一过程对语言专家资源与时间成本构成了显著压力。同时,数据集中高达71%的高风险探针与44%的越狱攻击类别,也反映了在平衡评测覆盖率与内容安全管控之间的精妙权衡。
常用场景
经典使用场景
在越南语人工智能安全评估领域,Nemotron-Content-VISafe-v1数据集被广泛用于系统化评测多语言语言模型在处理安全关键提示时的行为表现。研究人员通过向模型输入涵盖越狱攻击、毒性内容、错误信息、提示注入、越南特定政治敏感话题、网络犯罪、过度拒绝及隐私侵犯等8个类别的3212条越南语探测文本,系统性地评估模型是否能够有效拒绝有害请求、避免生成不安全内容、抵御提示注入攻击,同时对敏感政治话题保持中立回应,并避免过度拒绝无害的越南语请求。该数据集尤其适用于需要验证模型在多语言环境下的安全对齐能力的研究场景,为评估防御机制的鲁棒性提供了标准化的评测框架。
实际应用
在实际产业应用中,VISafe数据集已成为越南语内容审核系统和安全护栏开发团队不可或缺的评测工具。NVIDIA等机构利用该数据集对旗下多语言模型的越南语安全行为进行系统性红队测试,通过自动化评测流水线检测模型在面对越狱攻击、提示注入和错误信息传播等威胁时的行为表现。数据集特别针对越南本地特有的安全风险场景进行了专门设计,例如面向越南社交媒体平台的网络钓鱼诈骗侦测、本地医疗错误信息识别、以及越南政治敏感话题的立场中立性评估。在实际部署中,开发者可以使用该数据集对生产环境中的对话系统进行安全压力测试,结合LLM-as-Judge评估框架自动计算安全通过率,并针对性地优化安全对齐策略,从而降低模型在越南语场景中产生有害输出的风险,提升AI产品在越南市场的合规性和用户信任度。
衍生相关工作
VISafe数据集的发布催生了一系列重要的衍生学术工作,特别是在多语言安全评估方法论领域。研究团队基于该数据集开发了针对越南语特有的提示注入检测技术,包括处理同形异体字、零宽字符、双向覆盖符和Unicode规范化攻击等越南语言特征的防御机制。在模型安全对齐方向,该数据集激发了多项关于提升低资源语言安全对齐效率的研究,探索了如何利用确定性模板生成方法降低对大规模人工标注的依赖,同时保持评测覆盖的全面性。此外,VISafe的构建范式——将英语安全基准通过受控翻译与本地生成模板相结合——已经启发了其他语种(如泰语、印尼语)安全评测数据集的构建工作,形成了可复制的多语言安全评测方法论。在评测框架层面,该数据集推动了评估流程的框架无关化设计理念,使得安全评估可以从特定内部平台解耦,从而被更广泛的研究社区采纳和扩展,形成了多语言安全评估的标准化参考架构。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务