droussis/UltraSafety_binarized-orpo-dpo

Name: droussis/UltraSafety_binarized-orpo-dpo
Creator: droussis
Published: 2024-04-25 17:22:24
License: 暂无描述

Hugging Face2024-04-25 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/droussis/UltraSafety_binarized-orpo-dpo

下载链接

链接失效反馈

官方服务：

资源简介：

UltraSafety Binarized数据集是UltraSafety数据集的二值化版本，适用于DPO、ORPO等模型。该数据集包含2,263条偏好数据，原始数据集包含3,000条数据。通过计算帮助性和诚实性评分的平均值来创建新的评分，并保留最高评分的响应作为chosen response，最低评分的响应作为rejected response。数据集还添加了四个新特征：chosen、rejected、chosen_metadata和rejected_metadata。数据集还提供了关于有害和无害响应的统计信息，其中约24.6%的chosen response被GPT-4识别为有害并被过滤掉。

提供机构：

droussis

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: MIT
大小: 1K<n<10K

数据集特征

source: 字符串类型
prompt: 字符串类型
instruction: 字符串类型
models: 字符串序列类型
completions: 列表类型，包含以下字段：
- custom_system_prompt: 字符串类型
- model: 字符串类型
- principle: 字符串类型
- response: 字符串类型
- annotations: 结构类型，包含以下字段：
  - harmlessness: 列表类型，包含以下字段：
    - Rating: 字符串类型
    - Rationale: 字符串类型
    - Rationale For Rating: 字符串类型
    - Type: 字符串序列类型
  - helpfulness: 列表类型，包含以下字段：
    - Rating: 字符串类型
    - Rationale: 字符串类型
    - Rationale For Rating: 字符串类型
    - Type: 字符串序列类型
  - honesty: 列表类型，包含以下字段：
    - Rating: 字符串类型
    - Rationale: 字符串类型
chosen: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
rejected: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
chosen_metadata: 结构类型，包含以下字段：
- harmful: 字符串类型
- model: 字符串类型
- rating: 浮点数类型
rejected_metadata: 结构类型，包含以下字段：
- harmful: 字符串类型
- model: 字符串类型
- rating: 浮点数类型

数据集分割

train:
- 字节数: 84734770.24533333
- 示例数: 2263
- 下载大小: 36264052
- 数据集大小: 84734770.24533333

数据集描述

包含: 2,263 偏好数据
特征新增:
- "chosen": 选定响应的对话，OpenAI SDK格式
- "rejected": 拒绝响应的对话，同上
- "chosen_metadata": 包含"model", "harmful" ("yes" or "no"), 和 "rating"的字典
- "rejected_metadata": 同上，但针对拒绝响应
有害响应过滤: 约24.6%的选定响应被识别为有害并已过滤

数据集创建与维护

创建者: openbmb
维护者: droussis

引用信息

@article{guo2024controllable, title={Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment}, author={Guo, Yiju and Cui, Ganqu and Yuan, Lifan and Ding, Ning and Wang, Jiexin and Chen, Huimin and Sun, Bowen and Xie, Ruobing and Zhou, Jie and Lin, Yankai and others}, journal={arXiv preprint arXiv:2402.19085}, year={2024} }

搜集汇总

数据集介绍

构建方式

在人工智能安全对齐领域，UltraSafety_binarized-orpo-dpo数据集通过精炼原始UltraSafety数据集构建而成。其构建过程首先计算每个候选回复在有益性和诚实性维度的平均评分，以此作为新的综合评分标准。随后，针对每个提示，算法选取评分最高的回复标记为“选定回复”，评分最低的则标记为“拒绝回复”。此外，数据集从每个候选回复的自定义系统提示中提取出系统与用户消息，并结构化地封装为OpenAI SDK格式的对话。最终，数据集新增了“chosen”、“rejected”及相应的元数据字段，形成了适用于直接偏好优化等训练范式的二元偏好对，原始3000条数据经处理后保留了2263条有效样本。

使用方法

研究人员可将该数据集直接应用于直接偏好优化或顺序拒绝偏好优化等训练流程。典型的使用方法是加载数据集的训练分割，从中提取“chosen”与“rejected”字段所包含的对话序列作为正负样本对。同时，可利用“chosen_metadata”与“rejected_metadata”中的有害性标志和评分进行额外的数据筛选或加权训练，以强化模型的安全边界。在投入训练前，建议使用者根据自身研究目标对数据进行额外过滤，例如排除元数据中标记为有害的选定回复，以进一步提升训练数据的纯净度。该数据集以标准格式封装，能够无缝集成至基于Hugging Face Transformers库的偏好学习代码框架中。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，模型对齐问题日益凸显，确保模型输出既安全又可靠成为研究焦点。UltraSafety数据集由openbmb团队于2024年构建，旨在通过可控偏好优化方法，解决多目标对齐中的核心挑战，即同时提升模型的无害性、诚实性和帮助性。该数据集基于GPT-4等先进模型生成响应，并引入精细的人工标注机制，为后续的偏好优化算法如DPO和ORPO提供了高质量的训练资源，推动了人工智能安全领域的发展。

当前挑战

UltraSafety数据集致力于解决多目标对齐问题，即在确保模型无害性的同时，维持其帮助性和诚实性，这一平衡过程面临标注一致性与主观性交织的挑战。在构建过程中，原始数据需经过复杂的二值化处理，包括评分平均计算、高低响应筛选及有害内容过滤，其中约24.6%的优选响应因被识别为有害而剔除，凸显了数据清洗的严谨性与规模缩减的权衡难题。

常用场景

经典使用场景

在人工智能对齐领域，UltraSafety_binarized-orpo-dpo数据集为研究者提供了经过二值化处理的偏好数据，专门用于优化语言模型的安全性与有用性。该数据集通过精心筛选，将最高评分的响应标记为“选定”，最低评分的响应标记为“拒绝”，从而构建了清晰的对比样本。这一结构使得数据集成为训练对齐算法（如DPO、ORPO）的理想资源，帮助模型在生成内容时更好地平衡无害性、诚实性和帮助性等多重目标。

解决学术问题

该数据集有效解决了多目标对齐中的可控优化问题，特别是在处理语言模型可能产生的有害内容方面。通过整合无害性、诚实性和帮助性等多维度评分，数据集为量化模型行为提供了标准化基准。这使得研究者能够系统评估和改进模型在复杂伦理场景下的表现，推动对齐技术从单一目标向多目标协同演进，为构建更可靠、可信的人工智能系统奠定了数据基础。

实际应用

在实际应用中，该数据集可直接用于微调大型语言模型，以提升其在客服、教育、内容审核等场景中的安全合规性。例如，在自动对话系统中，利用数据集的偏好对比可训练模型避免生成误导性或有害回复，同时保持回答的实用性与准确性。此外，数据集的结构化标注也为企业开发定制化AI工具提供了可扩展的监督数据，助力实现更精细的风险控制。

数据集最近研究