SafeSora

github2024-06-22 更新2024-06-23 收录

下载链接：

https://github.com/PKU-Alignment/safe-sora

下载链接

链接失效反馈

官方服务：

资源简介：

SafeSora是一个人类偏好数据集，旨在支持文本到视频生成领域的安全对齐研究，目的是增强大型视觉模型的帮助性和无害性。

SafeSora is a human preference dataset designed to support safety alignment research in the field of text-to-video generation, with the goal of enhancing the helpfulness and harmlessness of large vision models.

创建时间：

2024-06-09

原始信息汇总

SafeSora 数据集概述

SafeSora 是一个人类偏好数据集，旨在支持文本到视频生成领域的安全对齐研究，目的是提高大型视觉模型（LVMs）的有用性和无害性。该数据集目前包含三种类型的数据：

数据集类型

多标签分类数据集

数量：包含超过 57,000 个文本-视频对。
标签：每个文本-视频对带有 12 个伤害标签的多标签分类。
标签分类：
- S1: 成人内容，明确的性内容
- S2: 动物虐待
- S3: 儿童虐待
- S4: 犯罪
- S5: 有争议的敏感社会问题
- S6: 毒品，武器，物质滥用
- S7: 侮辱性，仇恨性，攻击性行为
- S8: 暴力，伤害，血腥内容
- S9: 种族歧视
- S10: 其他歧视（不包括种族）
- S11: 恐怖主义，有组织犯罪
- S12: 其他有害内容
数据分布：近一半的提示是安全关键的，另一半是安全中性的。
详细信息：更多信息请参考 Hugging Face 页面。

人类偏好数据集

数量：包含超过 51,000 个比较实例。
内容：每个数据点包括一个用户输入和两个生成的视频。
偏好维度：通过基于启发式的标注过程，获得了关于 有用性 和 无害性 维度的人类偏好。
子维度：
- 指令遵循
- 正确性
- 信息量
- 美学
详细信息：更多信息请参考 Hugging Face 页面。

评估数据集

数量：包含 600 个人工编写的提示。
分类：300 个安全中性提示和 300 个根据 12 个有害类别构建的红队提示。
用途：这些提示不会出现在训练集中，保留给研究人员用于模型评估。
详细信息：更多信息请参考 Hugging Face 页面。

数据访问

数据集可通过 Hugging Face Datasets Hub 获取。推荐使用 huggingface cli 下载：

bash

多标签分类数据集：SafeSora-Label

huggingface-cli download --repo-type dataset --local-dir-use-symlinks False --resume-download PKU-Alignment/SafeSora-Label --local-dir ./SafeSora-Label

人类偏好数据集：SafeSora

huggingface-cli download --repo-type dataset --local-dir-use-symlinks False --resume-download PKU-Alignment/SafeSora --local-dir ./SafeSora

评估数据集：SafeSora-Eval

huggingface-cli download --repo-type dataset --local-dir-use-symlinks False --resume-download PKU-Alignment/SafeSora-Eval --local-dir ./SafeSora-Eval

下载的数据主要包括 config-train.json.gz 和 config-test.json.gz 数据配置文件，以及 videos.tar.gz 视频压缩包。使用前请解压视频包。

引用

如果您在研究中使用了 SafeSora 数据集，请引用以下论文：

bibtex @misc{dai2024safesora, title={SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset}, author={Josef Dai and Tianle Chen and Xuyao Wang and Ziran Yang and Taiye Chen and Jiaming Ji and Yaodong Yang}, year={2024}, eprint={2406.14477}, archivePrefix={arXiv}, primaryClass={cs.CV} }

许可证

SafeSora 数据集及其家族基于 CC BY-NC 4.0 许可证发布。代码基于 Apache License 2.0 许可证发布。

搜集汇总

数据集介绍

构建方式

SafeSora数据集的构建旨在支持文本到视频生成领域的安全对齐研究。该数据集包含三种类型的数据：多标签分类数据集、人类偏好数据集和评估数据集。多标签分类数据集包含超过57,000个文本-视频对，每个对都标注了12种伤害标签。人类偏好数据集包含超过51,000个实例，通过基于启发式的注释过程，获取了在帮助性和无害性维度上的比较关系。评估数据集包含600个由人类编写的提示，其中300个是安全中性的，另外300个是根据12种伤害类别构建的红队提示。

使用方法

SafeSora数据集可通过Hugging Face Datasets Hub进行访问。推荐使用huggingface-cli进行下载，下载的数据主要包括配置文件和视频压缩包。每个数据点包含用户提示、潜在有害类别、生成的视频及其有害类别的注释结果。数据集还提供了一个脚本，用于快速返回Torch Dataset类，方便研究人员进行数据加载和处理。

背景与挑战

背景概述

SafeSora数据集是由北京大学对齐研究团队创建的，旨在支持文本到视频生成领域的安全对齐研究。该数据集的核心研究问题是如何增强大型视觉模型（LVMs）的有用性和无害性。SafeSora数据集包含三种类型的数据：多标签分类数据集、人类偏好数据集和评估数据集。这些数据集的创建旨在通过多标签分类和人类偏好比较，评估和提升文本到视频生成模型的安全性和有用性。SafeSora数据集的发布对文本到视频生成领域的研究具有重要影响，特别是在模型安全性和用户偏好评估方面。

当前挑战

SafeSora数据集在构建过程中面临多个挑战。首先，多标签分类数据集需要对57k+的文本-视频对进行12种不同危害标签的分类，这要求高度精确的标注和分类算法。其次，人类偏好数据集需要通过复杂的启发式标注过程，获取用户在有用性和无害性方面的偏好，这涉及到大量的数据处理和分析工作。最后，评估数据集的构建需要设计出既安全又具有挑战性的提示，以确保模型在实际应用中的鲁棒性和安全性。这些挑战不仅涉及到数据标注的复杂性，还包括如何确保数据集的多样性和代表性，以及如何在保护用户隐私的同时进行有效的数据收集和处理。

常用场景

经典使用场景

SafeSora数据集在文本到视频生成领域中被广泛用于安全对齐研究。其经典使用场景包括：利用多标签分类数据集对57k+的文本-视频对进行12种有害标签的分类，以识别和过滤潜在的不安全内容；通过人类偏好数据集中的51k+实例，评估生成的视频在帮助性和无害性方面的表现，并细化四个子维度的帮助性评估；以及使用评估数据集中的600个提示，包括300个安全中立提示和300个红队提示，进行模型安全性的全面测试。

解决学术问题

SafeSora数据集解决了文本到视频生成领域中的关键学术问题，即如何确保生成内容的安全性和有用性。通过提供多标签分类数据集，研究人员能够识别和分类潜在的有害内容，从而提升模型的安全性。人类偏好数据集则帮助研究者理解和优化模型在帮助性和无害性方面的表现，推动了模型对用户需求的更好响应。评估数据集的使用，使得研究者能够在实际应用前对模型进行全面的安全性测试，确保其在面对各种提示时都能保持高水平的性能。

实际应用

在实际应用中，SafeSora数据集被广泛用于开发和优化文本到视频生成模型，特别是在需要高安全性和用户友好性的场景中。例如，在教育内容生成、新闻视频制作和社交媒体内容审核等领域，SafeSora数据集帮助确保生成的视频内容既安全又符合用户需求。此外，该数据集还被用于训练和评估自动内容审核系统，以防止有害内容的传播，保护用户免受不良信息的侵害。

数据集最近研究