GadziJezyk
收藏Hugging Face2024-12-20 更新2024-12-21 收录
下载链接:
https://huggingface.co/datasets/JerzyPL/GadziJezyk
下载链接
链接失效反馈官方服务:
资源简介:
Gadzi Jezyk数据集包含520个恶意提示,涉及犯罪活动等内容。数据集详细分类包括:暴力语言43条,粗俗语言4条,性内容18条,犯罪活动505条,自杀/自残31条。该数据集基于walledai/AdvBench开发,原始数据为英文,通过DeepPL翻译成波兰语,并由志愿者进行验证和分类。主要用于训练和测试语言模型的安全性。
The Gadzi Jezyk Dataset contains 520 malicious prompts involving criminal activities and other harmful content. Its detailed classification categories include: 43 cases of violent language, 4 cases of vulgar language, 18 cases of sexually explicit content, 505 cases of criminal activities, and 31 cases of suicide/self-harm. This dataset is developed based on walledai/AdvBench, with the original data in English. It was translated into Polish by DeepPL, and verified and categorized by volunteers. It is primarily used for training and testing the safety of language models.
创建时间:
2024-12-16
原始信息汇总
数据集卡片:Gadzi Język
数据集详情
- 数据集名称: Gadzi Język
- 任务类别: 文本分类
- 语言: 波兰语
- 数据集大小: n<1K
- 许可证: MIT License
数据集描述
Gadzi Język 数据集包含520个与犯罪活动等相关的恶意提示。
类别及数量
- 类别1: 言语暴力 - 43
- 类别2: 粗俗语言 - 4
- 类别3: 性内容 - 18
- 类别4: 犯罪活动 - 505
- 类别5: 自杀/自残 - 31
数据集来源
该数据集基于 walledai/AdvBench 数据集(https://huggingface.co/datasets/walledai/AdvBench),该数据集包含使用 Wizard-Vicuna-30B-Uncensored 模型生成的英语句子。AdvBench 数据集被翻译成波兰语,并由志愿者进行验证和分类。
数据结构
- Nr: 标识符
- Zapytanie: 波兰语句子(提示)
- Kat 1: 类别1
- Kat 2: 类别2
- Kat 3: 类别3
- Kat 4: 类别4
- Kat 5: 类别5
数据集贡献者
该数据集由华沙经济学院的学生在 Jerzy Surma 教授的指导下开发。志愿者学生名单包括:Paweł Drąszcz, Natalia Dziedzina, Natalia Glejzer, Mikołaj Grajeta, Kacper Jasiński, Natalia Karczewska, Sebastian Kowalski, Maciej Krawczyński, Kamil Maciejko, Łukasz Michalski, Mateusz Musiał, Jan Puzio, Adrian Wojas 和 Urszula Zdańska。
用途
该数据集用于训练和测试 Guardrail 类型的语言模型的安全性。
搜集汇总
数据集介绍

构建方式
GadziJezyk数据集的构建基于walledai/AdvBench数据集,该原始数据集包含英文文本,通过Wizard-Vicuna-30B-Uncensored模型生成。为了适应波兰语环境,这些文本被翻译成波兰语,并由志愿者进行了验证和修订。在翻译过程中,部分文本进行了创造性的扩展或修改,以确保其内容的多样性和准确性。所有条目均由志愿者根据初步制定的分类法进行分类,该分类法旨在支持Bielik安全语言模型的开发。
特点
GadziJezyk数据集的显著特点在于其专注于包含520条与犯罪活动相关的毒性提示,涵盖多种类别,如言语暴力、粗俗语言、性内容、犯罪活动以及自杀/自残等。数据集的多样性和详细分类使其成为评估和训练语言模型安全性的理想选择。此外,数据集的波兰语特性使其在波兰语自然语言处理任务中具有独特价值。
使用方法
GadziJezyk数据集主要用于训练和测试旨在提高语言模型安全性的Guardrail模型。通过使用该数据集,研究人员可以评估模型在处理潜在有害内容时的表现,并进行必要的调整以增强模型的防护能力。数据集的结构清晰,包含标识符、波兰语提示以及五个详细分类,便于用户进行分类和分析。
背景与挑战
背景概述
GadziJezyk数据集由波兰华沙高等商学院的学生在Jerzy Surma教授的指导下开发,旨在为训练和测试语言模型(如Guardrail模型)的安全性提供支持。该数据集包含520条与犯罪活动等相关的恶意提示,涵盖暴力言语、粗俗语言、性内容、犯罪活动以及自杀/自残等多个类别。数据集的构建基于walledai/AdvBench数据集,通过DeepPL服务将英文文本翻译为波兰语,并由志愿者进行翻译验证和分类。GadziJezyk数据集的开发不仅为波兰语语言模型的安全性研究提供了重要资源,还为多语言环境下的模型安全评估提供了参考。
当前挑战
GadziJezyk数据集在构建过程中面临多项挑战。首先,翻译过程中依赖于自动翻译工具DeepPL,可能导致语义偏差或不准确,需通过人工校验进行修正。其次,分类过程中依赖志愿者的主观判断,可能存在分类不一致的问题。此外,数据集主要针对波兰语,限制了其在多语言模型中的应用范围。最后,数据集的规模较小(n<1K),可能影响其在模型训练中的泛化能力。这些挑战需要在未来的研究中进一步解决,以提升数据集的质量和适用性。
常用场景
经典使用场景
GadziJezyk数据集主要用于训练和测试语言模型的安全性,特别是针对Guardrail类型的模型。该数据集包含了520个与犯罪活动相关的恶意提示,涵盖了暴力语言、粗俗词汇、性内容、犯罪活动以及自杀/自残等多个类别。通过这些数据,研究者可以评估和提升模型在处理潜在有害内容时的表现,确保其在实际应用中的安全性和可靠性。
解决学术问题
GadziJezyk数据集解决了在自然语言处理领域中,如何有效识别和过滤恶意内容这一关键问题。通过提供多类别的恶意提示,该数据集为研究者提供了一个标准化的测试平台,用于评估和改进模型在处理有害信息时的性能。这不仅有助于提升模型的鲁棒性,还为开发更安全的语言模型提供了重要的实验基础。
衍生相关工作
GadziJezyk数据集的发布激发了大量相关研究工作,特别是在语言模型的安全性和鲁棒性方面。许多研究者基于该数据集开发了新的检测算法和模型,以提高对恶意内容的识别能力。此外,该数据集还被用于评估不同语言模型在处理有害信息时的表现,推动了模型安全性评估标准的进一步发展。
以上内容由遇见数据集搜集并总结生成



