nicholasKluge/toxic-aira-dataset

Name: nicholasKluge/toxic-aira-dataset
Creator: nicholasKluge
Published: 2024-06-18 11:37:56
License: 暂无描述

Hugging Face2024-06-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nicholasKluge/toxic-aira-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Toxic-Aira数据集包含葡萄牙语和英语的对话示例，每个示例包含一个初始提示（instruction）、一个合适的回复（chosen_response）和一个有毒的回复（rejected_response）。该数据集可用于训练奖励/偏好模型、毒性检测或DPO微调。数据集的创建是为了支持Nicholas Kluge的博士论文研究，资金来源包括CNPq、FAPERGS和DAAD。数据集包含有毒/冒犯性语言，可能对某些观众造成不适。

The Toxic-Aira dataset contains conversational examples in both Portuguese and English, each consisting of an initial prompt (instruction), an appropriate response (chosen_response), and a toxic response (rejected_response). This dataset can be used to train reward/preference models, toxicity detection, or DPO fine-tuning. The dataset was created to support Nicholas Kluges doctoral dissertation research, funded by CNPq, FAPERGS, and DAAD. The dataset contains toxic/offensive language that may be triggering to some audiences.

提供机构：

nicholasKluge

原始信息汇总

Toxic-Aira Dataset 概述

数据集基本信息

名称: Toxic-Aira Dataset
语言: 英语和葡萄牙语
许可证: Apache-2.0
大小: 10K<n<100K
任务类别: 文本分类
标签: 毒性, 伤害

数据集结构

特征:
- instruction: 字符串类型，模型的初始提示。
- chosen_response: 字符串类型，提示的适当完成。
- rejected_response: 字符串类型，提示的有毒完成。
数据分割:
- portuguese: 8285个示例，29606823字节
- english: 8285个示例，26836335字节
下载大小: 27005056字节
数据集大小: 56443158字节

数据集用途

训练: 奖励/偏好模型, 毒性检测, DPO微调

数据集创建

来源: 部分完成由已调优模型(如ChatGPT, LLama 2, Open-Assistant等)生成，部分手动创建。
注释者: Nicholas Kluge Corrêa
敏感信息: 数据集包含可能触发不同受众的有毒/攻击性语言。

许可证信息

许可证: Apache License, version 2.0

搜集汇总

数据集介绍

构建方式

在人工智能伦理与价值对齐的研究领域，Harmless-Aira数据集的构建体现了对模型无害化输出的严谨追求。该数据集通过混合自动生成与人工创作的方式，收集了针对各类指令的对话式补全示例。具体而言，研究团队利用已调优的大型语言模型（如ChatGPT、LLama 2等）生成部分补全内容，同时辅以手动编写，确保每个指令均配备一个被判定为无害的优选回复以及一个有害的拒绝回复。这一构建过程旨在为模型偏好学习提供高质量的双语对比数据，支撑价值对齐的实证研究。

特点

Harmless-Aira数据集的显著特点在于其专注于毒性内容识别与无害回复的对比。数据集以双语形式呈现，涵盖英语与葡萄牙语，每种语言均包含八千余条实例。每条数据均结构化呈现，包含初始指令、无害的选定回复以及有害的拒绝回复，从而清晰标注了回复的伦理倾向。这种设计使其特别适用于训练奖励模型或进行直接偏好优化（DPO），为探究语言模型的价值对齐机制提供了关键资源。

使用方法

在自然语言处理的安全对齐任务中，该数据集可直接用于模型微调与评估。研究人员可通过Hugging Face的`datasets`库便捷加载，指定英语或葡萄牙语分片即可获取结构化数据。其核心应用在于训练模型区分并优先生成无害回复，例如通过对比学习或强化学习中的奖励建模来优化模型行为。使用者需注意数据包含可能引发不适的有害语言，应在受控的研究环境中审慎使用，以推动人工智能向更安全、更负责任的方向发展。

背景与挑战

背景概述

在人工智能伦理与价值对齐研究领域，确保大型语言模型生成无害且符合社会规范的内容已成为核心议题。Harmless-Aira数据集由Nicholas Kluge Corrêa于2023年创建，作为其博士论文《动态规范性：价值对齐的必要与充分条件》的重要组成部分。该研究得到巴西国家研究机构CNPq、FAPERGS及德国学术交流中心DAAD的资助，并与巴西天主教大学及波恩大学哲学系合作推进。数据集旨在通过对比无害与有害的模型回复，为训练奖励模型或直接偏好优化提供双语语料，从而推动语言模型在伦理边界内的安全部署，对促进人工智能的价值对齐研究具有显著影响力。

当前挑战

该数据集致力于解决自然语言处理中模型安全性对齐的挑战，即如何使语言模型在开放域对话中避免生成有毒、偏见或有害内容。构建过程中的主要挑战包括：首先，在数据收集阶段，需平衡自动生成与人工创建回复的质量与多样性，确保有害示例的真实性与代表性，同时避免引入标注者主观偏差；其次，处理多语言（英语与葡萄牙语）语境下的文化敏感性差异，要求对有害内容的界定具备跨文化一致性；此外，数据集中包含的触发性质内容可能对使用者造成心理影响，需在伦理审查与数据安全使用方面建立严格规范。

常用场景

经典使用场景

在自然语言处理领域，特别是大语言模型的价值对齐研究中，该数据集为训练奖励模型或直接偏好优化提供了关键资源。其结构包含指令、无害回应与有害回应的三元组，使得模型能够学习区分安全与有害的生成内容。通过对比学习机制，研究者能够引导模型在复杂对话场景中优先选择符合伦理规范的输出，从而提升人工智能系统的安全性与可靠性。

衍生相关工作

围绕该数据集，已衍生出多项关于价值对齐与安全微调的研究。例如，基于直接偏好优化方法的改进模型训练框架，以及针对多语言毒性检测的跨文化比较研究。这些工作进一步拓展了数据集的效用，促进了人工智能伦理、安全强化学习与跨语言自然语言处理等领域的交叉融合，为后续构建更精细化的对齐基准与评估体系奠定了基础。

数据集最近研究