SafeSora
收藏SafeSora 数据集概述
SafeSora 是一个人类偏好数据集,旨在支持文本到视频生成领域的安全对齐研究,目的是提高大型视觉模型(LVMs)的有用性和无害性。该数据集目前包含三种类型的数据:
数据集类型
多标签分类数据集
- 数量:包含超过 57,000 个文本-视频对。
- 标签:每个文本-视频对带有 12 个伤害标签的多标签分类。
- 标签分类:
- S1:
成人内容,明确的性内容 - S2:
动物虐待 - S3:
儿童虐待 - S4:
犯罪 - S5:
有争议的敏感社会问题 - S6:
毒品,武器,物质滥用 - S7:
侮辱性,仇恨性,攻击性行为 - S8:
暴力,伤害,血腥内容 - S9:
种族歧视 - S10:
其他歧视(不包括种族) - S11:
恐怖主义,有组织犯罪 - S12:
其他有害内容
- S1:
- 数据分布:近一半的提示是安全关键的,另一半是安全中性的。
- 详细信息:更多信息请参考 Hugging Face 页面。
人类偏好数据集
- 数量:包含超过 51,000 个比较实例。
- 内容:每个数据点包括一个用户输入和两个生成的视频。
- 偏好维度:通过基于启发式的标注过程,获得了关于
有用性和无害性维度的人类偏好。 - 子维度:
指令遵循正确性信息量美学
- 详细信息:更多信息请参考 Hugging Face 页面。
评估数据集
- 数量:包含 600 个人工编写的提示。
- 分类:300 个安全中性提示和 300 个根据 12 个有害类别构建的红队提示。
- 用途:这些提示不会出现在训练集中,保留给研究人员用于模型评估。
- 详细信息:更多信息请参考 Hugging Face 页面。
数据访问
数据集可通过 Hugging Face Datasets Hub 获取。推荐使用 huggingface cli 下载:
bash
多标签分类数据集:SafeSora-Label
huggingface-cli download --repo-type dataset --local-dir-use-symlinks False --resume-download PKU-Alignment/SafeSora-Label --local-dir ./SafeSora-Label
人类偏好数据集:SafeSora
huggingface-cli download --repo-type dataset --local-dir-use-symlinks False --resume-download PKU-Alignment/SafeSora --local-dir ./SafeSora
评估数据集:SafeSora-Eval
huggingface-cli download --repo-type dataset --local-dir-use-symlinks False --resume-download PKU-Alignment/SafeSora-Eval --local-dir ./SafeSora-Eval
下载的数据主要包括 config-train.json.gz 和 config-test.json.gz 数据配置文件,以及 videos.tar.gz 视频压缩包。使用前请解压视频包。
引用
如果您在研究中使用了 SafeSora 数据集,请引用以下论文:
bibtex @misc{dai2024safesora, title={SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset}, author={Josef Dai and Tianle Chen and Xuyao Wang and Ziran Yang and Taiye Chen and Jiaming Ji and Yaodong Yang}, year={2024}, eprint={2406.14477}, archivePrefix={arXiv}, primaryClass={cs.CV} }
许可证
SafeSora 数据集及其家族基于 CC BY-NC 4.0 许可证发布。代码基于 Apache License 2.0 许可证发布。




