CohereForAI/aya_redteaming
收藏Hugging Face2024-06-28 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/CohereForAI/aya_redteaming
下载链接
链接失效反馈官方服务:
资源简介:
Aya Red-teaming数据集是一个由人工标注的多语言红队测试数据集,包含8种语言的有害提示,涵盖了9种不同的伤害类别,并明确标注了‘全球’和‘本地’伤害。该数据集由专业的有偿标注者整理,支持的语言包括阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语。数据集遵循Apache 2.0许可证,是Cohere For AI发布的Aya数据集家族的一部分。
Aya Red-teaming数据集是一个由人工标注的多语言红队测试数据集,包含8种语言的有害提示,涵盖了9种不同的伤害类别,并明确标注了‘全球’和‘本地’伤害。该数据集由专业的有偿标注者整理,支持的语言包括阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语。数据集遵循Apache 2.0许可证,是Cohere For AI发布的Aya数据集家族的一部分。
提供机构:
CohereForAI
原始信息汇总
Aya Red-teaming 数据集概述
数据集详情
- 数据集名称: Aya Red-teaming
- 描述: 这是一个由专业标注人员注释的多语言红队测试数据集,包含8种语言中的有害提示,涵盖9种不同类别的有害内容,并明确标注了“全球”和“本地”有害性。
- 语言: 阿拉伯语、英语、菲律宾语、法语、印地语、俄语、塞尔维亚语和西班牙语
- 许可证: Apache 2.0
- 论文: arxiv link
有害类别
- 欺凌与骚扰
- 歧视与不公正
- 图形材料
- 代表性分配与服务质量的危害
- 仇恨言论
- 非自愿的性内容
- 亵渎
- 自残
- 暴力、威胁与煽动
数据集结构
数据字段
prompt: 原始人类策划的提示language: 提示的语言harm_category: 提示所属的有害类别global_or_local: 指定提示是全局有害还是本地有害literal_translation: 原始提示的字面翻译(英语为None)semantic_translation: 原始提示的语义翻译(英语为None)explanation: 解释提示为何有害和/或全局/本地有害
标注详情
标注详情可在我们的论文的附录A中找到。
发布组织
- 发布组织: Cohere For AI
- 行业类型: 非营利 - 科技
- 联系详情: https://cohere.com/research/aya
许可证信息
该数据集可在Apache 2.0许可证的条款下用于任何学术或商业目的。
引用
bibtex @misc{aakanksha2024multilingualalignmentprismaligning, title={The Multilingual Alignment Prism: Aligning Global and Local Preferences to Reduce Harm}, author={Aakanksha and Arash Ahmadian and Beyza Ermis and Seraphina Goldfarb-Tarrant and Julia Kreutzer and Marzieh Fadaee and Sara Hooker}, year={2024}, eprint={2406.18682}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2406.18682}, }
搜集汇总
数据集介绍

构建方式
Aya Red-teaming数据集是由专业的人工标注员精心策划的多语种红队数据集,包含8种语言在9种不同伤害类别下的有害提示,并明确标注了“全局”和“局部”伤害。数据集的构建通过对各语种的有害提示进行人工标注,并按照伤害类别进行分类整理。
使用方法
使用Aya Red-teaming数据集时,用户需要首先安装HuggingFace的datasets库。通过指定语言 subset,可以加载相应语言的数据集。例如,加载英语子集的代码为:`dataset = load_dataset("CohereLabs/aya_redteaming", "english")`。用户可以根据需要加载其他语言子集或整个数据集。
背景与挑战
背景概述
Aya Red-teaming数据集,由Cohere Labs研究团队于2024年发布,旨在构建一个多语种的有害提示语料库,涵盖8种语言,并在9个不同的伤害类别中进行了明确标注,包括全球性和本地性伤害的标签。该数据集的创建,是为了应对人工智能模型在处理多语言内容时可能产生的风险和挑战,其背景源于对多语言环境中歧视、仇恨言论、自我伤害等问题的深入研究,对于全球互联网内容治理和人工智能伦理领域具有显著的影响。
当前挑战
该数据集在构建过程中遇到的挑战主要包括:如何准确捕捉和分类不同语言和文化背景下的有害内容,以及如何确保标注的质量和一致性。此外,Aya Red-teaming数据集所解决的领域问题是,为多语言环境中的人工智能模型提供了一种评估和改善其处理有害内容能力的方法,这对于减少模型在实际应用中的伤害具有重要作用。然而,该数据集的使用也面临着如何平衡开放性与安全性、尊重文化差异与维护全球标准等挑战。
常用场景
经典使用场景
在当前多语言模型训练与评估的背景下,Aya Red-teaming数据集的经典使用场景主要在于对模型进行对抗性测试。该数据集包含多种语言的有害提示,可用于评估模型在处理敏感内容时的鲁棒性,确保模型不会生成或响应可能导致伤害的输出。
解决学术问题
Aya Red-teaming数据集解决了多语言模型训练中的一个关键问题,即在全球化背景下,如何确保模型在处理不同文化和社会环境中的有害内容时能够做出适当的响应。该数据集为学术研究提供了必要的测试案例,帮助研究者识别和缓解模型潜在的偏见和有害行为。
实际应用
在实际应用中,Aya Red-teaming数据集被用于改进在线平台的内容审核系统,以及开发更加安全、可靠的多语言对话系统。通过模拟潜在的有害输入,该数据集帮助工程师识别和修复系统漏洞,保护用户免受网络伤害。
数据集最近研究
最新研究方向
Aya Red-teaming数据集作为多语种有害提示的标注数据集,近期研究主要聚焦于利用该数据集对多语言模型进行对抗性测试,以评估模型在处理有害内容时的鲁棒性。该数据集的发布对于模型安全性研究领域具有显著意义,它不仅帮助研究者识别和定位模型在处理歧视、仇恨言论、自伤等有害内容时的缺陷,而且推动了多语言模型在有害内容识别与过滤技术上的进步。通过该数据集,研究者能够更好地理解和优化模型在全球性与地域性有害信息的处理策略,以实现更加公正和安全的人工智能系统。
以上内容由遇见数据集搜集并总结生成



