salamandra-guard-dataset

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/langtech-innovation/salamandra-guard-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Salamandra Guard 数据集是一个多语言安全分类语料库，专为加泰罗尼亚语和西班牙语的内容审核系统训练与评估而设计。该数据集包含 21,335 个经过精心筛选的对话示例，采用分层安全分类法进行标注。数据集特别关注历史上在 AI 安全研究中代表性不足的加泰罗尼亚语，同时也包含西班牙语和英语内容。数据集分为两个子集：人工标注子集（5,016 个样本）和机器翻译子集（16,319 个样本）。每个样本包含用户提示、助手响应、语言代码、安全分类标签（二进制和多标签）以及来自三位人类标注者和多个 LLM 法官的标注结果。数据集支持多种任务，包括二进制分类（安全/不安全内容检测）、多类分类（四个高级安全类别 C0-C3）、细粒度分类（八个子类别 S0-S7）以及跨语言安全检测。数据集结构清晰，包含详细的字段说明和安全分类体系。数据集的创建过程注重文化适应性和标注质量，采用专业翻译和众包校对相结合的方式，并进行了严格的质量控制。然而，数据集也存在一些局限性，如标注主观性、LLM 法官间的分歧以及文化特异性等。该数据集由 Barcelona Supercomputing Center 的语言技术实验室开发，采用 Apache 2.0 许可，适用于文本生成和文本分类等任务。

创建时间：

2026-02-12

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，构建高质量的多语言安全分类数据集对于提升内容审核系统的跨文化适应性至关重要。Salamandra Guard数据集的构建采用了严谨的双轨制方法，其核心包含两个精心设计的子集：人类标注子集与机器翻译子集。人类标注子集源自Nvidia的Nemotron安全数据集，通过GPT-4o进行初步翻译后，由专业译员与母语为加泰罗尼亚语的众包工作者进行校对与标注，每个样本均经过三位独立人类标注员与两种大语言模型法官的并行标注，并通过多数投票机制形成共识标签。机器翻译子集则完全由GPT-4o从英语源数据翻译生成，并辅以LLM法官进行标注，旨在扩充数据多样性。整个构建过程强调文化适应性，特别是针对历史上在AI安全研究中代表性不足的加泰罗尼亚语，确保了数据在语言与文化上的真实性。

特点

该数据集在安全分类领域展现出鲜明的特色。其首要特点是多语言与文化的深度融合，不仅涵盖了加泰罗尼亚语、西班牙语和英语，更将安全分类标准植根于欧洲特别是加泰罗尼亚的文化语境中，有效弥补了现有数据集的语种与地域偏见。其次，数据集采用了层次化的精细分类体系，包含从安全到危险、有毒及性内容四大高层类别，并进一步细分为八个子类别，支持多标签分类，能够捕捉内容安全性的复杂维度。此外，数据集中同时提供了人类标注员与多种大语言模型的独立标注结果，以及通过多数投票形成的共识标签，为研究标注一致性、人机标注差异以及模型偏见提供了宝贵的多维视角。

使用方法

该数据集为内容安全研究与实践提供了多层次的实用框架。研究者可将其用于训练和评估跨语言的安全分类模型，支持从简单的二元安全检测到精细的八类多标签分类等多种任务。具体而言，用户可利用`is_safe`字段进行二元分类，或利用`s_codes`列表进行多标签分类，亦可参考`majority_c_cat`或`majority_vote`字段进行高层或子类别的单标签分类。数据集的结构化标注信息，包括三位人类标注员和GPT-4o、GPT-OSS等LLM法官的独立标签，使得用户能够深入分析不同标注源之间的共识与分歧，探究安全分类的主观性与模型偏差。在应用时，建议用户充分考虑安全分类固有的文化主观性，结合多个标注源进行综合判断，并在特定领域进行验证以确保模型的鲁棒性。

背景与挑战

背景概述

在人工智能安全研究领域，构建能够跨语言与文化进行有效内容审核的系统是一项核心挑战。Salamandra Guard数据集由巴塞罗那超级计算中心语言技术实验室于2025年发布，旨在填补加泰罗尼亚语及欧洲西班牙语在AI安全数据中的代表性空白。该数据集包含21,335个经过精心标注的对话样本，采用多标注者框架，融合了人类专家与大型语言模型的判断。其核心研究问题聚焦于为低资源语言建立文化根基深厚的内容安全分类体系，通过引入层次化的安全分类法，为多语言安全检测模型的训练与评估提供了重要基准，显著推动了文化适应性安全研究的发展。

当前挑战

该数据集致力于解决多语言内容安全分类的挑战，其核心在于处理安全定义的主观性与文化特异性。具体而言，挑战体现在标注者间仅达到中等一致性，尤其在骚扰与亵渎言语等细分类别上分歧显著，这揭示了安全判断固有的模糊性。在构建过程中，挑战主要源于为低资源语言获取高质量标注数据，包括依赖机器翻译可能引入非地道的语言模式，以及协调多个人类标注者与不同LLM评判标准所产生的标注偏差。此外，将源数据的安全分类法适应于加泰罗尼亚与西班牙文化语境，并确保分类体系的正交性与实用性，亦是构建过程中的关键难题。

常用场景

经典使用场景

在人工智能安全研究领域，多语言内容审核系统的开发与评估面临数据稀缺的挑战。Salamandra Guard数据集通过提供加泰罗尼亚语、西班牙语和英语的对话样本，成为训练和评估安全分类模型的经典资源。其核心应用场景在于构建能够识别多层次安全风险的分类器，例如从简单的安全/不安全二元判断，到涉及暴力、骚扰、仇恨言论等八个细分子类别的多标签分类。研究人员利用其精心标注的训练集，可以开发出对欧洲语境，特别是加泰罗尼亚文化背景具有敏感性的审核模型，有效弥补了主流英语数据在文化适配性上的不足。

解决学术问题

该数据集旨在解决自然语言处理安全研究中几个关键学术问题。首要的是小语种安全数据的代表性缺失问题，它为历史上被忽视的加泰罗尼亚语提供了高质量、文化接地的标注语料。其次，它通过引入简化的正交分类法，并辅以多人标注和LLM法官标注，为研究安全分类中的主观性与标注一致性难题提供了实证基础。数据集的结构设计使得学者能够深入探究跨语言安全检测的模型泛化能力，以及人类标注者与大型语言模型在复杂安全判断上的差异与偏见，从而推动更鲁棒、更公平的内容安全评估框架的发展。

衍生相关工作

围绕Salamandra Guard数据集，已衍生出多项探索多语言安全前沿的研究工作。经典方向包括基于其分层标签体系开发新的多任务学习模型，以同时处理二进制、多类别和多标签安全分类。另有研究专注于分析其标注数据，比较GPT-4o、Nemotron等不同LLM法官与人类共识的差异，从而揭示模型在安全判断上的系统性偏见。此外，该数据集也常被用作基准，用于评估像Llama Guard、ShieldGemma等现有安全模型在加泰罗尼亚语和西班牙语上的零样本或微调性能，推动了跨语言安全防护技术的迭代与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集