aya_redteaming

Hugging Face2024-06-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/CohereForAI/aya_redteaming

下载链接

链接失效反馈

官方服务：

资源简介：

Aya Red-teaming数据集是一个由专业付费标注者创建的多语言红队测试数据集，包含8种语言中的有害提示，跨越9种不同类别的有害内容，并明确标注了“全球”和“本地”有害性。数据集包括多个字段，如原始提示、语言、有害类别、全球或本地有害性、字面翻译、语义翻译和解释。该数据集是Cohere For AI发布的Aya系列数据集的一部分。

The Aya Red-teaming Dataset is a multilingual red-teaming test dataset created by professional paid annotators. It contains harmful prompts across 8 languages and 9 distinct categories of harmful content, with explicit annotations of "global" and "local" harmfulness. The dataset includes multiple fields: original prompt, language, harmful category, global or local harmfulness, literal translation, semantic translation, and explanation. This dataset is part of the Aya series of datasets released by Cohere For AI.

创建时间：

2024-06-28

原始信息汇总

数据集卡片 for Aya Red-teaming

数据集详情

Aya Red-teaming 数据集是一个人工注释的多语言红队测试数据集，包含8种语言中的有害提示，跨越9种不同类别的有害内容，并明确标记了“全球”和“本地”有害性。

数据集描述

由以下人员策划： 专业的有偿注释者
语言： 阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语
许可证： Apache 2.0
论文： arxiv链接

有害类别：

欺凌与骚扰
歧视与不公正
图形内容
代表性分配与服务质量的危害
仇恨言论
非自愿的性内容
亵渎
自我伤害
暴力、威胁与煽动

Aya 数据集家族：

此数据集是Cohere For AI发布的Aya努力的一部分，属于一个更大的多语言数据集家族。该家族中的数据集如下表所示：

名称	描述
aya_dataset	人工注释的多语言指令微调数据集，包含超过204K个实例，涵盖65种语言。
aya_collection	由流利说话者应用指令样式模板创建，包括19个指令样式数据集的101种语言翻译。此集合按数据集级别子集结构化。另一种按语言子集结构化的版本也可用。
aya_collection_language_split	按语言级别子集结构化的Aya Collection。
aya_evaluation_suite	一个多语言开放式生成的多样化评估集，包含7种语言的250个文化接地提示，24种语言的200个翻译提示，以及从英语Dolly中选出的6种语言的人工编辑版本，用于跨文化相关性。
aya_redteaming	一个红队测试数据集，包含8种语言中的有害提示，跨越9种不同类别的有害内容，并明确标记了“全球”和“本地”有害性。

数据集结构

数据集字段

以下是数据集中的字段：

prompt：原始人工策划的提示
language：提示的语言
harm_category：提示所属的有害类别
global_or_local：指定提示是全球还是本地有害
literal_translation：原始提示的字面翻译（英语为None）
semantic_translation：原始提示的语义翻译（英语为None）
explanation：解释为什么提示有害和/或全球/本地有害

所有数据集子集共享上述字段。

注释详情

注释详情可在我们的论文的附录A中找到。

作者身份

发布组织： Cohere For AI
行业类型： 非营利 - 科技
联系详情： https://cohere.com/research/aya

许可信息

此数据集可根据Apache 2.0许可证的条款用于任何学术或商业目的。

引用

bibtex @misc{aakanksha2024multilingualalignmentprismaligning, title={The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm}, author={Aakanksha and Arash Ahmadian and Beyza Ermis and Seraphina Goldfarb-Tarrant and Julia Kreutzer and Marzieh Fadaee and Sara Hooker}, year={2024}, eprint={2406.18682}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.18682}, }

搜集汇总

数据集介绍

构建方式

aya_redteaming数据集由专业的有偿标注者精心构建，涵盖了8种语言的9类有害提示，并明确标注了‘全球’和‘本地’危害。数据集的构建过程严格遵循多语言标注标准，确保每个提示的准确性和代表性。通过多轮审核和验证，数据集的质量得到了有效保障，使其成为研究多语言有害内容检测的重要资源。

特点

aya_redteaming数据集以其多语言覆盖和精细的类别划分而著称。数据集包含阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语的有害提示，涵盖了欺凌与骚扰、歧视与不公、仇恨言论等9类危害。每个提示都附有详细的解释和翻译，帮助研究者理解其背后的文化和社会背景。此外，数据集还提供了‘全球’和‘本地’危害的标签，为跨文化研究提供了丰富的数据支持。

使用方法

使用aya_redteaming数据集时，首先需安装Datasets库，并通过指定语言子集加载数据。例如，加载英语子集可使用代码`load_dataset('CohereForAI/aya_redteaming', 'english')`。数据集中的每个实例包含原始提示、语言、危害类别、全球或本地标签、字面翻译、语义翻译及解释等字段。研究者可根据需要选择特定语言或类别进行分析，或利用整个数据集进行多语言有害内容检测模型的训练与评估。

背景与挑战

背景概述

Aya Red-teaming数据集是由Cohere For AI于2024年发布的多语言红队测试数据集，旨在通过人工标注的方式识别和分类多种语言中的有害提示。该数据集涵盖了阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语等8种语言，涉及9种不同的有害类别，包括欺凌与骚扰、歧视与不公、仇恨言论等。该数据集的创建是为了支持多语言模型在识别和减少有害内容方面的研究，尤其是在全球和本地语境下的有害内容识别。其发布标志着多语言模型安全性和伦理研究的重要进展。

当前挑战

Aya Red-teaming数据集面临的挑战主要集中在两个方面。首先，在领域问题方面，该数据集旨在解决多语言环境下有害内容的识别与分类问题，但由于不同语言和文化背景下的有害内容表现形式差异较大，如何准确界定和标注全球与本地有害内容成为一大挑战。其次，在数据构建过程中，由于涉及多种语言和复杂的文化背景，确保标注的一致性和准确性需要大量专业的人工标注工作，这对数据集的构建效率和成本提出了较高要求。此外，如何平衡不同语言和文化的代表性，避免数据偏差，也是构建过程中需要克服的难题。

常用场景

经典使用场景

Aya Red-teaming数据集在自然语言处理领域中被广泛应用于多语言有害内容检测模型的训练与评估。该数据集通过提供8种语言的标注数据，涵盖了9种不同的有害内容类别，帮助研究人员构建和优化多语言环境下的内容审核系统。其多语言特性使得模型能够在全球范围内识别和处理有害内容，尤其适用于跨文化背景下的内容安全研究。

衍生相关工作

Aya Red-teaming数据集衍生了一系列经典的多语言内容安全研究。例如，基于该数据集的研究工作提出了多语言对齐模型，旨在通过全局和本地偏好的对齐来减少有害内容的传播。此外，该数据集还被用于开发跨文化内容审核工具，推动了多语言自然语言处理技术在内容安全领域的应用与发展。

数据集最近研究