PL-Guard

Name: PL-Guard
Creator: NASK – National Research Institute, Warsaw, Poland
Published: 2025-06-19 21:56:41
License: 暂无描述

arXiv2025-06-19 更新2025-06-24 收录

下载链接：

https://huggingface.co/collections/NASK-PIB/PL-Guard-684945df2cff1837f1bc6e95

下载链接

链接失效反馈

官方服务：

资源简介：

PL-Guard是一个为波兰语语言模型安全分类而创建的手动标注基准数据集，旨在解决当前安全评估主要集中在高资源语言上的问题。该数据集包含了超过7,000个实例，主要由语言模型的回答组成，并经过专家评审进行安全标签标注。为了评估模型在不同语言环境下的鲁棒性，还创建了PL-Guard-adv，这是PL-Guard的对抗性扩展，具有文本扰动功能。PL-Guard-train包含6,487个实例，用于训练，而PL-Guard-test包含900个平衡测试实例。PL-Guard-adv-test是PL-Guard-test的扰动版本，用于评估模型在噪声输入下的鲁棒性。

PL-Guard is a manually annotated benchmark dataset developed for safety classification of Polish language models, aiming to address the gap that current safety evaluation studies primarily focus on high-resource languages. This dataset contains over 7,000 instances, which are mainly composed of responses from language models and annotated with safety labels through expert review. To evaluate the robustness of models across diverse linguistic contexts, PL-Guard-adv, an adversarial extension of PL-Guard with text perturbation functions, was also constructed. PL-Guard-train consists of 6,487 instances for model training, while PL-Guard-test includes 900 balanced test instances. PL-Guard-adv-test is a perturbed variant of PL-Guard-test, which is utilized to assess the robustness of models against noisy inputs.

提供机构：

NASK – National Research Institute, Warsaw, Poland

创建时间：

2025-06-19

搜集汇总

数据集介绍

构建方式

PL-Guard数据集的构建过程体现了对波兰语语言模型安全性的系统性评估需求。研究团队首先通过自动化框架生成初始问题集，涵盖安全与有害两类内容，随后采用人工标注方式对超过7,000条样本进行精细标注，标注者间一致性系数达到0.92。为确保评估的全面性，团队构建了平衡测试集（900条样本）并创新性地开发了对抗性变体PL-Guard-adv，通过模拟拼写错误、OCR噪声等真实干扰来检验模型鲁棒性。数据采集过程整合了Llama、Mistral和PLLuM等多个模型家族的输出，并采用双向Transformer模型进行跨语言数据转换。

特点

该数据集的核心价值在于其针对波兰语设计的专业安全评估体系。PL-Guard包含15个精细划分的风险类别，覆盖从暴力犯罪到选举操纵等广泛领域，测试集特别设计了每类50个样本的均衡分布。其对抗性版本通过字符替换、变音符号消除等20种扰动方式，构建了具有挑战性的评估环境。值得注意的是，数据集同时提供波兰语原始文本和英语翻译版本，支持跨语言性能比较。与现有英语主导的安全基准相比，PL-Guard填补了中等资源语言评估工具的空白，其人工验证的标注质量显著优于机器翻译数据集。

使用方法

研究者可通过Hugging Face平台获取PL-Guard的测试集及最佳性能模型（HerBERT-PLGuard）。使用流程建议分三个阶段：首先利用平衡测试集进行基础安全分类评估，随后通过对抗性数据集检验模型鲁棒性，最后可结合英语翻译版本分析跨语言泛化能力。对于模型开发，研究团队推荐采用渐进式训练策略——先使用高质量人工标注数据微调，再逐步加入机器翻译数据增强泛化性。评估指标应同时关注宏观F1值（安全/非安全二元分类）和细粒度分类性能，对抗性测试需特别监测扰动导致的性能下降幅度。

背景与挑战

背景概述

PL-Guard数据集由波兰国家研究机构NASK的研究团队于2025年6月提出，旨在解决大型语言模型（LLMs）在波兰语等中等资源语言中的安全性评估不足问题。该数据集包含手动标注的安全分类样本及对抗性扰动变体，用于评估不同架构和大小的模型在波兰语环境下的鲁棒性。研究团队通过微调LlamaGuard-3-8B、基于HerBERT的分类器以及波兰适配的Llama-8B模型（PLLuM），验证了领域专用模型在特定语言任务中的优越性。PL-Guard的发布填补了非英语语言安全评估的空白，为全球AI技术的负责任部署提供了重要支持。

当前挑战

PL-Guard数据集面临的核心挑战包括两方面：领域问题方面，当前LLM安全评估严重偏向英语等高资源语言，导致波兰语等中等资源语言的安全漏洞检测能力不足，尤其是对抗性攻击在低资源语言中可能更有效；数据构建方面，创建高质量标注数据集需克服波兰语复杂的语法和形态特征，同时对抗性样本的生成需平衡扰动强度与语义保真度，确保评估既能反映真实攻击场景又不破坏原始语义。此外，跨语言泛化能力的缺失使得模型在英语和波兰语之间的性能差异显著，增加了多语言安全评估的复杂度。

常用场景

经典使用场景

PL-Guard数据集在自然语言处理领域中被广泛用于评估波兰语语言模型的安全性。该数据集通过手动标注的波兰语样本及其对抗性扰动变体，为研究者提供了一个可靠的基准，用于测试模型在面对有害内容时的鲁棒性。经典使用场景包括对大型语言模型（如LlamaGuard-3-8B、HerBERT和PLLuM）进行微调，以检测和分类输入中的安全风险，如仇恨言论、自残建议和非法指令。

实际应用

在实际应用中，PL-Guard数据集被用于开发和优化针对波兰语的内容审核工具。例如，在线平台可以利用基于该数据集训练的模型，自动检测和过滤用户生成的有害内容，确保社区的安全性和合规性。此外，该数据集还可用于教育领域，帮助开发针对波兰语学生的安全AI助手，避免生成不当或有害的回应。

衍生相关工作

PL-Guard数据集衍生了一系列相关研究和工作，包括基于HerBERT的轻量级安全分类器、针对波兰语优化的PLLuM模型，以及跨语言安全评估框架的扩展。这些工作进一步推动了多语言模型安全性的研究，例如PolyGuard项目将PL-Guard的方法扩展到其他17种语言，为全球范围内的AI安全提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集