SAFESORA

Name: SAFESORA
Creator: 北京大学人工智能安全与治理研究中心
Published: 2024-06-21 00:38:56
License: 暂无描述

arXiv2024-06-21 更新2024-06-24 收录

下载链接：

https://sites.google.com/view/safe-sora

下载链接

链接失效反馈

官方服务：

资源简介：

SAFESORA数据集是首个捕捉文本到视频生成任务中真实人类偏好的数据集，由北京大学人工智能安全与治理研究中心创建。该数据集包含14,711个独特的文本提示和57,333个由四个不同的大型视觉模型生成的独特视频。数据集的创建过程涉及两阶段注释，引导众包工作者根据自身感知解释帮助性和无害性概念。SAFESORA数据集的应用领域广泛，包括训练文本-视频审查模型和通过微调提示增强模块或扩散模型来调整大型视觉模型，旨在解决模型输出与人类价值观对齐的问题。

The SAFESORA dataset, developed by the AI Security and Governance Research Center of Peking University, is the first dataset that captures real human preferences in text-to-video generation tasks. This dataset contains 14,711 unique text prompts and 57,333 distinct videos generated by four different large-scale vision models. The dataset construction involves a two-stage annotation process, where crowdworkers are guided to interpret the concepts of helpfulness and harmlessness based on their own perceptions. The SAFESORA dataset has a wide range of application scenarios, including training text-video moderation models and aligning large-scale vision models via fine-tuning prompt enhancement modules or diffusion models, aiming to address the problem of aligning model outputs with human values.

提供机构：

北京大学人工智能安全与治理研究中心

创建时间：

2024-06-21

搜集汇总

数据集介绍

构建方式

SAFESORA 数据集的构建方式包括收集真实用户对文本到视频生成任务的偏好，并利用多个大型视觉模型生成视频。数据集包括 14,711 个独特的提示，57,333 个独特的视频，以及 51,691 个由人类标注的偏好对。为了捕捉深入的人类偏好，研究人员将“帮助性”细分为 4 个子维度，将“无害性”细分为 12 个子类别。数据集的构建过程分为两个阶段，第一阶段是启发式阶段，引导众包工作者根据自身感知对“帮助性”和“无害性”进行标注；第二阶段是总体偏好判断阶段，众包工作者根据启发式阶段的标注结果对“帮助性”和“无害性”进行总体偏好判断。

特点

SAFESORA 数据集的特点包括：第一个 T-V 偏好数据集，包含 14,711 个独特的文本提示，57,333 个 T-V 对，以及 51,691 个多方面的偏好数据；真实的人类标注数据，其中 44.54% 的提示来自互联网上的实际用户，其余通过数据增强生成；解耦的帮助性和无害性，独立标注帮助性和无害性维度，避免众包工作者在标注过程中遇到冲突；多方面的标注，包括两个综合维度下的子维度标注结果，提供多样化和独特的视角，并允许进行详细的相关性分析；有效的对齐数据集，通过一系列基准实验验证了 SAFESORA 数据集的有效性，包括训练 T-V Moderation 模型、偏好模型以及实现两种基准对齐算法。

使用方法

SAFESORA 数据集的使用方法包括：用于训练文本-视频审查模型，以过滤掉可能有害的多模态响应；用于训练偏好模型，以预测人类对大型视觉模型输出的偏好，并评估对齐能力；通过微调提示增强模块或扩散模型，实现 LVMs 与人类偏好的对齐。数据集的下载和使用请参考 SAFESORA 项目主页：https://sites.google.com/view/safe-sora。

背景与挑战

背景概述

随着多模态技术的进步，人工智能助手与人类交互的能力正在扩展到文本以外的领域，包括语音、图像和视频。然而，这些能力的扩展也带来了与人类价值观不一致的风险，可能导致严重后果。为了缓解这种风险，SAFESORA数据集被引入，旨在促进研究将文本到视频生成与人类价值观对齐。该数据集涵盖了文本到视频生成任务中的人类偏好，主要分为两个维度：有益性和无害性。SAFESORA数据集包括14,711个独特的提示，57,333个由4个不同的LVM生成的独特视频，以及51,691对人标注的偏好对。该数据集的创建填补了文本到视频领域缺乏可用数据集的空白，为人类价值观建模和对齐算法的开发和验证提供了基础。

当前挑战

SAFESORA数据集面临的挑战包括：1)解决领域问题的挑战：如何将文本到视频生成任务与人类价值观对齐，特别是在有益性和无害性之间存在冲突时；2)构建过程中的挑战：如何收集和分析人类对文本到视频生成任务的偏好数据，以及如何设计有效的对齐算法，以利用这些数据来改进模型。此外，数据集还面临着如何处理有害内容的挑战，以及如何确保数据集的公平性和可访问性。

常用场景

经典使用场景

SAFESORA数据集旨在促进文本到视频生成任务中与人类价值观的对齐研究。该数据集通过捕捉人类在文本到视频生成任务中对帮助性和无害性的偏好，为研究人员提供了宝贵的资源。通过分析人类对视频生成结果的偏好，研究人员可以评估大型视觉模型（LVMs）的输出是否与人类价值观相一致，从而减少有害输出的风险。

解决学术问题

SAFESORA数据集解决了文本到视频生成领域中缺乏有效数据集的问题。该数据集包含了14,711个独特的提示、57,333个独特的视频和51,691对由人类标记的偏好注释，为研究人类价值观对齐提供了坚实的基础。此外，SAFESORA数据集通过解耦帮助性和无害性这两个维度，为研究这两个维度之间的张力提供了新的视角。

衍生相关工作

SAFESORA数据集的衍生相关工作包括开发文本视频审查模型、偏好模型以及通过微调提示增强模块或扩散模型来实现LVMs与人类偏好对齐的算法。这些工作展示了SAFESORA数据集在文本到视频生成领域中推动人类价值观对齐研究的重要性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集