AIGVE-60K
收藏arXiv2025-05-18 更新2025-05-21 收录
下载链接:
https://github.com/IntMeGroup/LOVE
下载链接
链接失效反馈官方服务:
资源简介:
AIGVE-60K是一个大规模的数据集,用于AI生成视频评估,包含由30个T2V模型生成的58,500个视频。数据集涵盖了20个任务维度的3,050个广泛提示,包括120K的平均意见分数(MOSs)和60K的问题回答(QA)对。该数据集旨在解决当前AI生成视频在感知质量和文本-视频对齐方面的局限性问题,为T2V生成和V2T解释能力提供双向基准测试和评估。
AIGVE-60K is a large-scale dataset for AI-generated video evaluation, comprising 58,500 videos generated by 30 text-to-video (T2V) models. The dataset includes 3,050 comprehensive prompts spanning 20 task dimensions, alongside 120K mean opinion scores (MOSs) and 60K question-answering (QA) pairs. This dataset aims to address the current limitations of AI-generated videos in terms of perceptual quality and text-video alignment, providing a two-way benchmark and evaluation for both T2V generation and video-to-text (V2T) interpretation capabilities.
提供机构:
上海交通大学图像通信与网络工程研究所,人工智能教育部重点实验室,人工智能学院
创建时间:
2025-05-18
搜集汇总
数据集介绍

构建方式
AIGVE-60K数据集的构建采用了多模态大模型(LMMs)技术,通过收集3,050个涵盖20个细粒度任务的提示词,利用30种文本到视频(T2V)生成模型生成了58,500个视频。数据集的标注包括120,000个平均意见分数(MOSs)和60,000个问答对(QA pairs),确保了数据的全面性和多样性。构建过程中,还采用了深度学习和人工验证相结合的方法,以确保数据集的高质量和可靠性。
特点
AIGVE-60K数据集的特点在于其规模大、任务多样和标注精细。数据集包含58,500个视频,覆盖了20个不同的任务维度,每个视频都经过专业标注,包括感知质量和文本-视频对齐两个维度的评分。此外,数据集还提供了任务特定的问答对,进一步丰富了数据的应用场景。这些特点使得AIGVE-60K成为评估AI生成视频(AIGVs)的全面基准。
使用方法
AIGVE-60K数据集的使用方法包括视频质量评估、文本-视频对齐分析以及任务特定的问答对验证。研究人员可以利用该数据集进行模型训练和评估,特别是在感知质量、文本-视频对齐和任务特定准确性等方面。数据集还支持双向基准测试,既可以评估T2V生成模型的性能,也可以评估视频到文本(V2T)解释模型的能力。通过使用AIGVE-60K,研究人员可以更全面地理解和改进多模态模型的性能。
背景与挑战
背景概述
AIGVE-60K是由上海交通大学智能图像通信与网络工程研究所(Institute of Image Communication and Network Engineering)和人工智能研究院(AI Institute)的研究团队于2025年发布的大规模多模态评估数据集。该数据集聚焦于文本到视频(T2V)生成和视频到文本(V2T)理解两大核心任务,旨在解决当前AI生成视频在感知质量与文本对齐方面的局限性。数据集包含58,500个由30个T2V模型生成的视频,覆盖20个细粒度任务维度的3,050个提示词,并标注了120K平均意见分数(MOS)和60K问答对。AIGVE-60K的提出为开发可靠的自动评估模型提供了重要基础,推动了多模态内容生成与理解领域的发展。
当前挑战
AIGVE-60K面临的挑战主要包括:1)领域问题挑战:现有T2V生成视频常存在感知质量(如清晰度、流畅度)与文本对齐度不足的问题,需开发能同时评估多维度质量的统一框架;2)构建过程挑战:需处理海量视频标注的复杂性(如58,500视频需2.6M人工标注),确保标注一致性(15名标注者/视频),以及覆盖多样化的任务维度(如物体计数、空间关系、OCR等细粒度任务)。此外,数据集中商业模型生成视频的高成本与开源模型的可扩展性之间的平衡也是关键挑战。
常用场景
经典使用场景
AIGVE-60K数据集在文本到视频(T2V)生成和视频到文本(V2T)解释任务中具有广泛的应用。该数据集通过包含58,500个由30种T2V模型生成的视频和2.6M人类标注,涵盖了20种细粒度任务维度的3,050个提示。其经典使用场景包括评估生成视频的感知质量、文本-视频对齐度以及任务特定准确性。研究人员可以利用该数据集对T2V模型的生成能力和V2T模型的解释能力进行全面的基准测试和评估。
解决学术问题
AIGVE-60K数据集解决了当前多模态大模型(LMMs)在T2V和V2T任务中的关键学术问题。首先,它填补了现有评估数据集在规模和质量上的不足,提供了更全面和精细的主观评价维度。其次,数据集通过双向基准测试策略,支持对T2V生成模型和V2T解释模型的联合评估,解决了以往研究中评估视角单一的问题。此外,该数据集还解决了任务特定准确性评估的难题,通过60K问答对为细粒度任务提供了可靠的评估标准。
衍生相关工作
AIGVE-60K数据集已经衍生出多项重要研究工作。基于该数据集提出的LOVE评估模型开创了LMM-based的视频质量评估新范式。数据集还被用于改进现有的T2V生成模型,如Sora、Vidu1.5等商业系统的优化。在学术领域,该数据集支持了视频质量评估、多模态理解等方向的研究,催生了多篇顶会论文。此外,数据集构建方法也为其他模态的生成内容评估提供了重要参考。
以上内容由遇见数据集搜集并总结生成



