PKU-Alignment/SafeSora

Name: PKU-Alignment/SafeSora
Creator: PKU-Alignment
Published: 2024-06-20 09:36:08
License: 暂无描述

Hugging Face2024-06-20 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/PKU-Alignment/SafeSora

下载链接

链接失效反馈

官方服务：

资源简介：

SafeSora是一个人类偏好数据集，旨在支持文本到视频生成领域的安全对齐研究，以提高大型视觉模型（LVMs）的有用性和无害性。数据集包含三种类型的数据：分类数据集（SafeSora-Label）、人类偏好数据集（SafeSora）和评估数据集（SafeSora-Eval）。分类数据集包含57k+文本-视频对，包括12种有害标签的多标签分类。人类偏好数据集包含51k+实例，涉及文本到视频生成任务中的有用性和无害性比较关系，以及有用性的四个子维度。评估数据集包含600个人类编写的提示，其中300个是安全中立的，另外300个是根据12种有害类别构建的红队提示。未来还将开源一些利用这些数据集的基线对齐算法。

SafeSora is a human preference dataset developed to support safety alignment research in the text-to-video generation domain, with the objective of enhancing both the usefulness and harmlessness of Large Vision Models (LVMs). The dataset comprises three core subsets: the classification dataset (SafeSora-Label), the human preference dataset (SafeSora), and the evaluation dataset (SafeSora-Eval). Specifically, the SafeSora-Label classification dataset contains over 57,000 text-video pairs, enabling multi-label classification across 12 harmful categories. The SafeSora human preference dataset includes more than 51,000 instances, which cover comparative relationships of usefulness and harmlessness in text-to-video generation tasks, alongside four sub-dimensions of usefulness. The SafeSora-Eval evaluation dataset consists of 600 human-written prompts, with 300 being safety-neutral and the remaining 300 being red team prompts constructed based on the aforementioned 12 harmful categories. Baseline alignment algorithms leveraging these datasets will be open-sourced in the future.

提供机构：

PKU-Alignment

原始信息汇总

数据集卡片 SafeSora

数据集概述

SafeSora 是一个人类偏好数据集，旨在支持文本到视频生成领域的安全对齐研究，目标是提高大型视觉模型（LVMs）的有用性和无害性。该数据集包含以下三种类型的数据：

分类数据集 (SafeSora-Label)：包含超过 57,000 个文本-视频对，涉及 12 种有害标签的多标签分类。
人类偏好数据集 (SafeSora)：包含超过 51,000 个实例，涉及文本到视频生成任务中的有用性和无害性的比较关系，以及四个有用性的子维度。
评估数据集 (SafeSora-Eval)：包含 600 个人类编写的提示，其中 300 个是安全中性的，另外 300 个是根据 12 种有害类别构建的红队提示。

数据集详细信息

人类偏好数据集

SafeSora 是一个包含超过 51,000 个实例的人类偏好数据集，涉及文本到视频生成任务中的有用性和无害性的比较关系，以及四个有用性的子维度。每个数据点包括用户输入和两个生成的视频。通过基于启发式的标注过程，获得了在 有用性 和 无害性 维度上的人类偏好。此外，由于预标注启发式过程，还包含了四个有用性子维度的人类偏好，这些子维度是：

指令遵循
正确性
信息量
美学

数据集配置

默认配置：
- 训练集：config-train.json.gz
- 测试集：config-test.json.gz

许可证

CC BY-NC 4.0

任务类别

文本到视频

语言

英语

数据集大小

10K<n<100K

搜集汇总

数据集介绍

构建方式

在文本到视频生成领域，SafeSora数据集的构建采用了启发式标注流程，旨在捕捉人类对模型输出的偏好。该流程围绕用户输入及两个生成视频展开，通过系统化的人工评估，获取在有益性和无害性维度上的比较关系。具体而言，标注过程不仅涵盖整体偏好，还深入四个有益性子维度——指令遵循、正确性、信息丰富度与美学表现，从而形成多层次、结构化的偏好数据。这一方法确保了数据在反映人类判断时的细致性与可靠性，为后续对齐研究奠定了坚实基础。

特点

SafeSora数据集作为文本到视频生成领域的安全对齐资源，其核心特点在于多维度偏好标注的全面性。数据集包含超过51,000个实例，每个实例均提供用户输入及两个生成视频的比较关系，覆盖有益性与无害性两大核心维度。尤为突出的是，数据集进一步细化了有益性的四个子维度，包括指令遵循、正确性、信息丰富度与美学表现，使得偏好判断更具解释性与实用性。这种结构化设计不仅支持模型安全性的精细化评估，也为大规模视觉模型的对齐研究提供了丰富、可靠的基准数据。

使用方法

SafeSora数据集主要应用于文本到视频生成模型的安全对齐研究。研究人员可通过加载数据集中的训练与测试分割，利用其标注的偏好比较关系，训练或评估模型在有益性与无害性维度上的表现。具体使用中，可结合数据集的四个有益性子维度，进行多目标优化或细粒度性能分析。此外，数据集与配套的分类数据集、评估数据集协同，支持从红队提示构建到多标签分类的完整研究流程，为提升大规模视觉模型的安全性与实用性提供系统化工具。

背景与挑战

背景概述

随着大型视觉模型在文本到视频生成领域的迅猛发展，模型输出的安全性与对齐问题日益凸显。为应对这一挑战，北京大学对齐团队于近期构建了SafeSora数据集，旨在通过大规模人类偏好数据，推动生成式视频模型在有益性与无害性方面的对齐研究。该数据集聚焦于解决文本到视频生成任务中模型可能产生的有害内容，并细化了有益性的多个子维度，为后续的安全对齐算法提供了关键的数据基础，对促进负责任人工智能的发展具有重要影响力。

当前挑战

SafeSora数据集致力于解决文本到视频生成领域的安全对齐挑战，核心在于如何精准量化并平衡生成内容的有益性与无害性。具体挑战包括：在领域层面，需对复杂、开放式的文本提示所引发的多样化潜在危害进行系统分类与评估；在构建过程中，面临高质量人类偏好数据标注成本高昂、主观判断一致性难以保证，以及多维度评价标准（如指令遵循、正确性、信息量与美学）的协同整合等难题。

常用场景

经典使用场景

在文本到视频生成领域，SafeSora数据集为大型视觉模型的安全对齐研究提供了关键支持。其经典使用场景聚焦于通过人类偏好数据，训练模型在生成视频时兼顾有用性与无害性。研究者利用数据集中的51,000余条实例，每条包含用户输入及两个生成视频的比较关系，系统评估模型在遵循指令、正确性、信息量和美学等子维度上的表现，从而优化生成策略，推动模型向更安全、更可靠的方向演进。

解决学术问题

SafeSora数据集致力于解决文本到视频生成中模型安全对齐的核心学术问题。它通过大规模人类偏好标注，为模型提供了明确的优化目标，帮助克服生成内容可能存在的有害倾向。数据集涵盖12类危害标签的分类数据以及人类编写的安全提示，使得研究者能够量化评估模型在无害性方面的表现，并为开发先进的对齐算法奠定数据基础，显著提升了该领域研究的严谨性与可重复性。

衍生相关工作

围绕SafeSora数据集，已衍生出多项经典研究工作。研究团队计划开源基于该数据集的基线对齐算法，为社区提供可复现的基准。同时，数据集的结构设计启发了后续在大型视觉模型安全评估、多维度偏好建模以及红队测试提示构建等方面的探索。这些工作共同推动了文本到视频生成领域安全标准的建立，促进了负责任人工智能技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集