Sora-Generated Videos

Name: Sora-Generated Videos
Creator: 日本国立先进工业科学技术研究所（AIST）
Published: 2025-04-30 13:41:43
License: 暂无描述

arXiv2025-04-30 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.21334v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由OpenAI的Sora生成，包含300个手动标注的图像，从15个Sora生成的视频中提取。数据集分为四类视觉伪影标签类型：边界/边缘缺陷、纹理/噪声问题、运动/关节异常和物体不匹配/消失。该数据集用于训练多个2D CNN架构，以识别和分类这些视觉伪影。

This dataset was generated by OpenAI's Sora, consisting of 300 manually annotated images extracted from 15 Sora-generated videos. The dataset is categorized into four types of visual artifact labels: boundary/edge defects, texture/noise issues, motion/joint anomalies, and object mismatch/disappearance. This dataset is utilized to train multiple 2D CNN architectures for identifying and classifying these visual artifacts.

提供机构：

日本国立先进工业科学技术研究所（AIST）

创建时间：

2025-04-30

搜集汇总

数据集介绍

构建方式

在视频生成技术迅猛发展的背景下，Sora-Generated Videos数据集应运而生，旨在系统化研究AI生成视频中的视觉伪影问题。该数据集构建过程严谨，首先通过OpenAI的Sora模型生成100段10秒时长的视频片段，内容涵盖人物与场景的多样化组合。研究人员从中精选15段视频进行深入分析，以每秒2帧的速率提取图像，最终获得300张静态帧样本。每帧图像均经过人工标注，针对四种典型伪影类型（边界/边缘缺陷、纹理/噪声问题、运动/关节异常、物体错配/消失）进行多标签分类，为后续模型训练提供了高质量的标注数据。

使用方法

该数据集主要服务于生成式视频的质量评估与安全检测研究。使用者可基于300张标注帧图像，训练2D CNN架构（如ResNet-50、EfficientNet等）进行多标签分类任务，实现自动化伪影检测。实验表明，ResNet-50模型在该数据集上平均准确率达94.14%，验证了其有效性。研究人员还可利用Grad-CAM可视化技术，对比模型关注区域与人工标注的差异，深入理解生成式视频的缺陷特征。对于时序分析需求，建议将帧序列输入3D CNN或光流算法，以捕捉运动相关伪影。数据集特别适用于开发视频真实性验证工具，为数字内容可信度评估提供技术支撑。

背景与挑战

背景概述

Sora-Generated Videos数据集由日本Joshigakuin高中的Misora Sugiyama和日本产业技术综合研究所（AIST）的Hirokatsu Kataoka等研究人员于2024年12月创建，旨在研究OpenAI的Sora视频生成模型产生的视觉伪影问题。Sora作为基于自然语言提示的强大视频生成模型，代表了大型语言模型（LLMs）与视频合成技术融合的重要进展。该数据集包含300帧从15个Sora生成的视频中手动标注的图像，重点关注边界/边缘缺陷、纹理/噪声问题、运动/关节异常以及物体不匹配/消失等四类常见伪影。这一研究为视频语言模型（VidLLMs）的开发提供了重要支持，特别是在视频质量评估、基于伪影的可解释性分析以及视觉风险识别等方面具有显著影响力。

当前挑战

Sora-Generated Videos数据集面临的主要挑战包括两方面：在领域问题方面，视频生成模型产生的视觉伪影可能影响视频质量、误导观众或传播虚假信息，特别是在教育、新闻报道等对事实性要求较高的应用中，如何准确检测和分类这些伪影是一个关键挑战；在构建过程方面，数据集的规模有限（仅300帧图像），可能无法全面覆盖多样化的视频场景和伪影类型，同时标注过程中存在主观性，不同标注者可能对同一伪影有不同判断。此外，视频的时序特性使得仅分析静态帧可能忽略运动相关的伪影，这对模型的全面检测能力提出了更高要求。

常用场景

经典使用场景

在生成式AI技术迅猛发展的背景下，Sora-Generated Videos数据集为研究者提供了一个系统评估文本到视频生成模型视觉伪影的平台。该数据集通过人工标注的300帧图像，涵盖了边界缺陷、纹理噪声、运动异常和物体失配四类典型伪影，为多标签分类任务奠定了数据基础。ResNet-50等2D CNN架构在该数据集上展现出的94.14%平均准确率，验证了其在视频质量评估领域的标杆作用。

解决学术问题

该数据集有效解决了生成式视频中视觉伪影的系统化检测难题。通过量化分析边界模糊、纹理失真等四类常见伪影的分布规律（如物体失配出现率高达80.3%），为理解AI生成内容的固有缺陷提供了实证依据。其多标签分类框架突破了传统单指标评估的局限，使研究者能够从多个维度解构生成模型的失败模式，对提升VidLLMs的可解释性具有方法论意义。

实际应用

在数字内容安全领域，该数据集支撑的检测模型可部署于社交媒体平台，实时筛查含伪影的生成视频。教育机构可利用其评估教学视频的真实性，新闻媒体则能据此建立AI生成内容的预警机制。特别值得注意的是，模型通过Grad-CAM揭示的注意力机制与人类标注的差异（如关注背景纹理而非主体异常），为开发人类-AI协同检测系统提供了新思路。

数据集最近研究