TAG-Bench-Video
收藏Hugging Face2025-12-05 更新2025-12-06 收录
下载链接:
https://huggingface.co/datasets/dghadiya/TAG-Bench-Video
下载链接
链接失效反馈官方服务:
资源简介:
TAG-Bench是一个用于评估视频生成模型中人类动作真实性的基准数据集。它包含300个由5种不同模型生成的视频片段,以及来自246名人类评估者的评分。评分涵盖两个关键维度:动作一致性(AC)和时间连贯性(TC)。数据集设计为5种模型×10种动作×6种种子=300个视频,所有视频均为合成内容,无真实世界片段。数据集的目标是评估当前视频生成模型在捕捉常见物理动作的合理人类运动方面的表现。
创建时间:
2025-12-04
原始信息汇总
TAG-Bench 数据集概述
基本信息
- 数据集名称:TAG-Bench
- 许可证:Creative Commons Attribution 4.0 International (CC BY 4.0)
- 任务类别:其他
- 标签:视频、生成模型、人工评估
- 规模类别:1K<n<10K
- 语言:英语
数据集简介
TAG-Bench 是一个用于评估视频生成模型中人体运动真实性的基准数据集。它包含 300 个生成的人体动作视频片段,以及来自一项涉及 246 名人类评估者的大规模研究收集的人工评分。
评分维度
评分涵盖两个关键维度:
- AC – 动作一致性(运动与预期动作的匹配程度)
- TC – 时间连贯性(运动在时间上以物理上合理且平滑的方式演化的程度)
数据集目标
TAG-Bench 旨在评估当前视频生成模型在捕捉常见物理动作的合理人体运动方面的表现。
数据集摘要
- 视频数量:300
- 模型数量:5
Hunyuan(模型名称:HunyuanVideo-I2V-720,分辨率:1088x832)Opensora_768(模型名称:Opensora-768px,分辨率:1024×576)RunwayGen4(模型名称:Gen4-Turbo,分辨率:1280x720)Wan2p1(模型名称:Wan2.1-I2V-14B-720P,分辨率:1104×816)Wan2p2(模型名称:Wan2.2-I2V-A14B,分辨率:1280x720)
- 动作类别数量:10(来自 UCF101 数据集的人体动作)
BodyWeightSquatsHulaHoopJumpingJackPullUpsPushUpsShotputSoccerJugglingTennisSwingThrowDiscusWallPushups
- 设计:5 个模型 × 10 个动作 × 6 个种子 = 300 个视频
- 内容:所有视频均为视频生成模型的合成输出(无真实世界镜头)。
研究目的
TAG-Bench 旨在研究:
- 不同视频模型在同一组动作提示上的表现
- 简单或先进的自动运动指标与人类判断的相关性
- 人体运动在动作一致性和时间连贯性方面的失败模式
相关资源
- 项目页面:https://xthomasbu.github.io/video-gen-evals/
- 论文:https://arxiv.org/abs/2512.01803
搜集汇总
数据集介绍

构建方式
在视频生成模型评估领域,TAG-Bench-Video 数据集的构建遵循了系统化的实验设计原则。该数据集包含300个由五种先进视频生成模型合成的视频片段,涵盖十类源自UCF101数据集的常见人体动作。每个动作类别均通过不同模型以六种随机种子生成,确保了评估样本的多样性与可比性。所有视频内容均为合成生成,未包含任何真实世界影像,其核心目标在于量化模型在人体运动真实性方面的表现。
特点
TAG-Bench-Video 的显著特点在于其聚焦于人体运动的双重评估维度。数据集不仅提供了生成的视频样本,还附带了由246名评估者参与的大规模人工评分数据,评分体系专门针对动作一致性与时间连贯性两个关键指标。这种设计使得研究者能够深入分析不同模型在相同动作提示下的行为差异,并探究自动运动度量指标与人类主观判断之间的相关性,从而揭示生成模型中人体运动的典型失败模式。
使用方法
该数据集主要服务于视频生成模型在人体运动真实性方面的基准测试。使用者可通过加载数据集中的视频文件及其对应的人工评分,系统评估不同模型在动作一致性和时间连贯性上的性能。研究实践通常涉及计算自动评估指标与人工评分之间的相关性,或对比分析各模型在特定动作类别上的生成质量。遵循CC BY 4.0许可协议,使用时应引用相关论文以保障学术规范性。
背景与挑战
背景概述
随着视频生成模型技术的飞速发展,评估生成内容的质量与真实性成为计算机视觉领域的关键议题。TAG-Bench数据集由研究团队于2024年创建,旨在系统性地评估视频生成模型中人体动作的真实性。该数据集聚焦于人体动作的一致性(Action Consistency)与时间连贯性(Temporal Coherence)两大核心维度,通过收集来自五个主流视频生成模型的300个合成视频片段,并结合246名人类评估者的大规模评分,为生成动作的物理合理性与时序平滑性提供了量化基准。其设计灵感源于对现有自动评估指标与人类主观判断之间关联性的深入探究,推动了视频生成模型在运动建模方面的可解释性与可靠性研究。
当前挑战
TAG-Bench数据集致力于解决视频生成领域中人体动作真实感评估的挑战。当前视频生成模型常面临动作语义与预期不符、运动轨迹物理失真以及时序抖动等难题,该数据集通过构建多模型、多动作类别的对比框架,揭示模型在复杂动态场景下的共性缺陷。在构建过程中,研究团队需克服合成视频的标准化采集、人类评分的主观偏差控制以及跨模型输出对齐等技术障碍,确保评估数据的严谨性与可比性。这些挑战凸显了在生成式人工智能时代,建立可靠且高效的运动质量评估体系仍是一项艰巨任务。
常用场景
经典使用场景
在视频生成模型的评估领域,TAG-Bench-Video数据集被广泛用于量化生成视频中人体动作的真实性。该数据集通过汇集来自五个前沿视频生成模型的300个合成视频片段,并辅以大规模人类评估者提供的动作一致性与时间连贯性评分,为研究者提供了一个标准化的测试平台。其经典应用场景在于系统性地比较不同模型在生成常见物理动作时的性能差异,例如评估模型在模拟“深蹲”或“网球挥拍”等动作时,其运动轨迹是否符合人体动力学规律。
实际应用
在实际应用中,TAG-Bench-Video为视频生成技术的产业落地提供了关键的评估依据。例如,在影视特效、虚拟现实内容创作或体育训练模拟系统中,需要生成高度逼真的人体动作序列。利用该数据集的评估框架,开发者可以筛选出在特定动作类别上表现最优的生成模型,确保合成视频的动作自然流畅,满足娱乐、教育或专业训练场景对视觉真实性的严格要求,加速了生成式AI技术在创意产业中的实用化进程。
衍生相关工作
围绕TAG-Bench-Video数据集,已衍生出一系列专注于视频生成评估的经典研究工作。这些工作主要集中于探索自动评估指标与人类评分之间的相关性,例如开发新的运动感知度量以替代昂贵的人工评估。同时,该数据集也激励了针对特定动作类别(如“投掷铁饼”或“跳绳”)的模型微调与优化研究,推动了生成模型在复杂时序建模方面的算法创新,为构建下一代高保真视频合成系统奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



