SLVMEval

Name: SLVMEval
Creator: tohoku-nlp
Published: 2026-03-08 22:25:55
License: 暂无描述

Hugging Face2026-03-08 更新2026-03-09 收录

下载链接：

https://huggingface.co/datasets/tohoku-nlp/SLVMEval

下载链接

链接失效反馈

官方服务：

资源简介：

SLVMEval 是一个用于文本到长视频生成评估的公开数据集，主要包含10个评估维度的配对数据。数据集结构分为 `degraded` 和 `vript` 两个主要目录，其中 `degraded` 包含10个评估维度的子目录（如美学、背景一致性、色彩等），每个子目录包含评估配对数据、劣化视频数据和视频文件。`vript` 目录包含原始视频的元数据。数据集总计包含4942个评估配对和1461个原始视频元数据条目。每个评估维度都有明确的样本数量和唯一ID统计。数据集适用于文本到视频生成的质量评估和多维度分析任务。

提供机构：

tohoku-nlp

创建时间：

2026-03-08

原始信息汇总

SLVMEval 数据集概述

数据集简介

SLVMEval（Synthetic Long-Video Meta-Evaluation Benchmark）是一个用于元评估文本到长视频（T2LV）生成任务的自动评估系统的基准。该基准采用基于成对比较的设置，通过对源视频应用特定方面的合成退化，构建受控的高质量与低质量长视频对。最终基准数据通过保留人类已验证的、退化清晰可辨的视频对来构建。

数据内容与结构

本次发布的基准数据位于 SLVMEval/degraded/degrade_5clip/ 目录下，包含以下10个方面的评估数据：

美学（Aesthetics）
技术质量（Technical Quality）
外观风格（Appearance Style）
背景一致性（Background Consistency）
时间流（Temporal Flow）
全面性（Comprehensiveness）
对象完整性（Object Integrity）
空间关系（Spatial Relationship）
动态程度（Dynamics Degree）
颜色（Color）

每个方面（aspect）的子目录中包含以下文件：

cleaned_sampled_test.jsonl
degraded_video_data.jsonl
videos.zip
frames.zip

解压后，每个方面的目录结构如下：

<aspect>/ ├── cleaned_sampled_test.jsonl ├── degraded_video_data.jsonl ├── videos/ │ └── <video_id>.mp4 └── frames/ └── <video_id>/ ├── 000001.jpg └── ...

数据字段说明

`cleaned_sampled_test.jsonl`

每一行对应一个成对评估样本，主要字段包括：

__index__
prompt
first_model, second_model
first_video_id, second_video_id
aspect
reversed
meta_data.preference

`degraded_video_data.jsonl`

包含 cleaned_sampled_test.jsonl 中引用的视频元数据记录，主要字段包括：

video_id
path
fps
frame_paths
predicted_clips（包含 span, clip_id, path 等信息）
meta_data

数据统计

方面	清理后样本行数	退化视频行数	视频文件数	帧目录数
美学（aesthetics）	564	282	282	282
背景一致性（background_consistency）	708	354	354	354
颜色（color）	408	204	204	204
动态程度（dynamics_degree）	666	333	333	333
时间流（move_scene）	570	285	285	285
对象完整性（object_removal）	200	100	100	100
全面性（scene）	470	235	235	235
空间关系（spatial_relationship）	472	236	236	236
外观风格（style）	624	312	312	312
技术质量（technical_quality）	260	130	130	130
总计	4942	2471	2471	2471

使用许可与限制

本数据集仅供学术和非商业研究使用。
未经许可，禁止重新分发或重新上传。
上游源数据（包括Vript和原始视频平台）仍受其原始条款约束。
本次发布不重新分发完整的上游源数据集本身。
如果上游源条款更严格，则以上游条款为准。

引用

如需使用此数据集，请引用以下论文：

@inproceedings{matsuda2026slvmeval, title = {SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation}, author = {Ryosuke Matsuda and Keito Kudo and Haruto Yoshida and Nobuyuki Shimizu and Jun Suzuki}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在文本到长视频生成领域，评估自动评价系统的性能至关重要。SLVMEval基准的构建采用了一种严谨的合成方法，通过向源视频施加特定方面的合成退化来创建受控的高质量与低质量视频对。这一过程确保了退化效果在视觉上清晰可辨，随后仅保留经过人工验证的有效对比对，从而形成最终的数据集，为元评估提供了可靠的基础。

使用方法

使用SLVMEval时，研究人员可通过Hugging Face平台下载数据集，并按照提供的脚本解压视频和帧文件。数据集以JSONL格式组织，其中cleaned_sampled_test.jsonl定义了配对比较样本，而degraded_video_data.jsonl则包含视频元数据。用户可基于这些数据训练或测试自动评估模型，通过对比不同退化方面的表现，系统性地验证评价系统在长视频生成任务中的有效性与鲁棒性。

背景与挑战

背景概述

随着文本到长视频生成技术的迅猛发展，如何客观、精准地评估生成视频的质量成为领域内亟待解决的核心问题。传统评估方法多依赖人工标注，成本高昂且难以规模化。在此背景下，SLVMEval（合成式长视频元评估基准）应运而生，由Ryosuke Matsuda等研究人员于2026年构建并发布。该基准旨在为文本到长视频生成任务中的自动评估系统提供一套严谨的元评估框架，通过构建受控的高质量与低质量视频对，并涵盖美学、技术质量、时空一致性等十个关键维度，为评估指标的效度验证提供了标准化工具，显著推动了生成式视频模型评估向自动化、细粒度化方向发展。

当前挑战

SLVMEval致力于解决文本到长视频生成领域自动评估系统本身的评估难题，其核心挑战在于如何设计能够精准反映人类偏好的合成退化策略，以构建具有判别力的视频对比对。在构建过程中，研究团队面临多重挑战：首先，需定义并操作化视频质量的多元维度，如动态程度、空间关系等，确保退化处理在特定维度上具有高区分度且不影响其他属性；其次，生成的大规模视频对必须经过严格的人类验证，以保障数据对的可靠性与一致性，这一过程耗费大量人力且对标注者的专业判断提出较高要求；此外，基准的构建还需平衡视频的多样性、时长的复杂性以及计算资源的约束，以实现对评估系统全面而高效的检验。

常用场景

经典使用场景

在文本到长视频生成领域，评估生成视频的质量一直是一个关键挑战。SLVMEval数据集通过构建成对的高质量与低质量视频对比，为自动评估系统提供了一个标准化的元评估基准。研究者利用该数据集，能够系统地测试和比较不同评估指标在多个视频质量维度上的性能，例如美学、技术质量和时空一致性等，从而推动评估方法的科学化与精细化。

解决学术问题

该数据集主要解决了文本到长视频生成中自动评估系统缺乏可靠验证基准的学术问题。传统评估往往依赖主观人工评分，难以规模化且一致性不足。SLVMEval通过引入受控的合成退化视频对，并保留人类验证的清晰可感知样本，为客观衡量评估指标与人类偏好的一致性提供了坚实基础，显著提升了评估研究的可重复性与严谨性。

实际应用

在实际应用中，SLVMEval为视频生成模型的开发与优化提供了关键工具。开发团队可以利用该基准来验证其内部评估流程的有效性，确保模型在颜色、动态程度、对象完整性等具体方面满足质量标准。此外，它还能辅助内容创作平台筛选高质量的生成视频，提升用户体验，并在教育、娱乐等行业的自动化视频生产流程中发挥质量控制作用。

数据集最近研究