PL-Mix

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/mi-crow-team/PL-Mix

下载链接

链接失效反馈

官方服务：

资源简介：

PL-Mix 是一个平衡的波兰语数据集，专为训练和评估提示级别有害性分类器而设计。该数据集包含 1,040 个提示，均等地分为有害（520）和无害（520）样本，并采用 80/20 分层训练-测试分割。PL-Mix 旨在解决波兰语有害提示检测领域公开可用、平衡且语言多样资源的缺乏问题，支持波兰语言模型的安全性分类和机械可解释性方法研究。数据集结构方面，每个样本包含以下字段：`text`（波兰语提示）、`text_harm_label`（二进制标签：有害或无害）、`text_harm_category`（有害类别或中性类）以及 `split`（训练或测试）。 PL-Mix 通过合并和处理三个来源的数据构建而成：(a) 所有有害样本（520）来自 GadziJezyk 数据集，涵盖多种有害类别；(b) 260 个中性提示来自 PolEmo2.0 情感分析数据集，通过聚类方法确保语义多样性；(c) 另外 260 个无害提示源自 NVIDIA Aegis AI 内容安全数据集 2.0 的安全提示子集，经翻译和选择引入更复杂和边界安全的案例。数据集适用于有害提示检测、波兰语内容审核研究、安全分类、机械可解释性研究以及跨语言鲁棒性评估。与英语数据集（如 WildGuardMix）结合使用时，可实现双语评估。需要注意的是，该数据集包含用于研究目的的有害和冒犯性语言，应负责任地使用，不得用于生成有害内容。

创建时间：

2026-02-01

搜集汇总

数据集介绍

构建方式

在波兰语安全分类研究领域，PL-Mix数据集的构建体现了严谨的多源融合策略。该数据集通过整合三个独立来源的文本材料，确保了内容的平衡性与多样性。其中，所有有害提示均取自GadziJezyk数据集，涵盖了辱骂、粗俗、性内容、犯罪及自残等多个伤害类别。无害提示则分别来源于PolEmo2.0情感分析数据集的中性子集，以及由NVIDIA Aegis安全数据集英文样本翻译而来的波兰语文本。在采样过程中，研究团队采用了句子嵌入与层次化聚类技术，以保障语义分布的广泛性。最终，通过基于标签与类别的分层划分，并辅以人工审核校正，形成了包含1040个样本且训练测试比例均衡的数据集。

特点

PL-Mix数据集的核心特点在于其精心设计的平衡结构与语言特异性。作为专注于波兰语的有害提示检测资源，该数据集在有害与无害样本之间实现了精确的数量对等，各包含520条数据，从而为模型训练提供了稳定的基础。数据覆盖了从明显有害到边界安全的多种语言场景，特别是通过翻译引入的复杂案例，增强了数据集的挑战性与实用性。此外，每个样本不仅标注了二元的危害标签，还保留了细粒度的伤害类别信息，支持多层次的安全分析。这种设计使得PL-Mix能够有效服务于波兰语内容审核、安全分类机制可解释性等前沿研究方向。

使用方法

在应用层面，PL-Mix数据集主要用于训练与评估针对提示级别的有害内容分类器。研究者可依据数据集中预设的80/20分层划分，直接进行模型训练与性能测试，重点关注模型对波兰语有害提示的识别能力。该数据集也适用于跨语言鲁棒性评估，当与英文安全数据集（如WildGuardMix）结合使用时，可探究模型在多语言环境下的泛化性能。在使用过程中，需注意数据包含研究目的的有害及冒犯性语言，应严格遵循负责任的研究伦理，避免将其用于生成有害内容。通过引用提供的文献格式，研究者可在相关工作中正式使用该数据集。

背景与挑战

背景概述

随着大型语言模型在多语言环境中的广泛应用，内容安全与有害提示检测成为自然语言处理领域的关键研究方向。PL-Mix数据集由华沙理工大学数学与信息科学学院的Hubert Kowalski与Adam Kaniasty于2026年创建，旨在填补波兰语在公开、平衡且语言多样性资源方面的空白。该数据集聚焦于提示级有害性分类，通过整合来自GadziJezyk、PolEmo2.0及NVIDIA Aegis AI Content Safety Dataset 2.0的语料，构建了一个包含1040个样本的平衡数据集，均匀涵盖有害与无害提示。其核心研究问题在于提升波兰语模型在安全分类与机制可解释性方法上的性能，为跨语言鲁棒性评估提供重要基础，推动了多语言内容审核研究的发展。

当前挑战

PL-Mix数据集所针对的领域挑战在于，现有波兰语资源在有害提示检测方面往往缺乏平衡性与语言多样性，导致模型在安全分类任务中可能存在偏差或泛化能力不足。构建过程中的挑战涉及多个层面：首先，在数据源整合时，需从异构数据集中提取并统一标注体系，同时保留原始多标签注释的语义信息；其次，为确保无害提示的语义多样性，采用了波兰语句子嵌入与分层k均值聚类技术进行平衡采样，这一过程对计算资源与算法精度提出了较高要求；此外，从英语源数据翻译波兰语样本时，需借助Gemini 3 Pro API实现高质量跨语言转换，并处理文化语境差异带来的语义损失问题；最后，通过人工审核修正错误标注样本，进一步保障了数据集的可靠性与一致性。

常用场景

经典使用场景

在自然语言处理领域，针对非英语语种的安全内容检测研究常面临数据资源匮乏的挑战。PL-Mix数据集作为平衡的波兰语提示词有害性检测资源，其经典使用场景集中于训练和评估提示词级别的有害性分类器。研究者可利用该数据集构建二分类模型，精准识别波兰语提示中蕴含的辱骂、粗俗、犯罪诱导等有害内容，从而为波兰语大语言模型的安全对齐提供关键数据支撑。

实际应用

在实际应用层面，PL-Mix可直接部署于波兰语在线内容审核系统。互联网平台可基于该数据集训练的模型实时筛查用户生成的提示文本，自动过滤涉及暴力、自残或性暗示的有害查询。教育机构亦能借助该工具监测学术交流环境，预防网络欺凌现象。通过与英语数据集WildGuardMix的联合使用，还能构建双语言安全评估框架，为跨国企业提供符合欧盟数字服务法案的合规性解决方案。

衍生相关工作

围绕PL-Mix衍生的经典工作主要集中于跨语言安全迁移学习领域。研究者以该数据集为基准，开发了基于多语言BERT的适配器架构，实现了英语安全知识向波兰语的高效迁移。华沙理工大学团队进一步利用其分层标注体系，提出了基于注意力权重的有害性归因可视化方法。这些工作不仅深化了对语言模型安全机制的理论认识，更为立陶宛语、捷克语等西斯拉夫语族的安全数据集构建提供了可复用的方法论框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集