BigVideo

Name: BigVideo
Creator: DeepLearnXMU
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/DeepLearnXMU/BigVideo-VMT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为BigVideo，是一个大规模的视频字幕翻译数据集，包含了450万句对以及总计9,981小时的视频资料。这些数据来源于YouTube和西瓜视频，旨在推动多模态机器翻译的发展。该数据集不仅包含了英汉两种语言的人工撰写字幕，而且重点筛选了高质量的视频-字幕配对。此外，数据集还包含了两个测试集：模糊测试集和明确测试集，它们被设计用来评估在翻译过程中视觉上下文的必要性。该数据集的规模达到了450万句对和9,981小时的视频资料，其任务专注于视频字幕翻译。

The dataset named BigVideo is a large-scale video subtitle translation dataset containing 4.5 million sentence pairs and a total of 9,981 hours of video footage. The data are sourced from YouTube and Xigua Video, with the goal of advancing research in multimodal machine translation. This dataset not only includes manually authored subtitles in both English and Chinese, but also places emphasis on curating high-quality video-subtitle pairs. Furthermore, the dataset comprises two test sets: the ambiguous test set and the explicit test set, which are developed to evaluate the necessity of incorporating visual context during the translation process. With a scale of 4.5 million sentence pairs and 9,981 hours of video content, this dataset is dedicated to the video subtitle translation task.

提供机构：

DeepLearnXMU

搜集汇总

数据集介绍

构建方式

BigVideo数据集从YouTube和西瓜视频两大在线视频平台收集了约15.5万段视频，包含人类撰写的英中双语字幕。为确保数据质量，仅选取由创作者上传的高质量平行字幕，并通过COMET评分等质量估计方法过滤低质量句子对。最终获得450万句对及总计9981小时的视频素材，规模远超现有HOW2和VATEX等数据集。

特点

该数据集具有显著的大规模与多样性特征，涵盖15个视频类别，每类至少包含1000个视频，克服了现有数据集的长尾分布问题。在文本层面，其独特的n-gram和词性标签数量较同类数据集高出一个数量级，词汇丰富度突出。特别设计的两组测试集——AMBIGUOUS（含语义歧义）和UNAMBIGUOUS（文本自足），为探究视觉信息对翻译的贡献提供了精准的评估基准。

使用方法

研究者可将视频帧（如使用ViT或SlowFast提取的特征）与文本嵌入拼接后输入跨模态编码器，结合对比学习目标进行训练，以拉近视频与文本的语义表示。该数据集适用于训练视频辅助的神经机器翻译模型，并在BLEU、COMET、BLEURT及术语精确匹配等指标上评测歧义消解效果。代码与数据已开源，便于复现与扩展。

背景与挑战

背景概述

多模态机器翻译（MMT）旨在融合语言与视觉信息以提升翻译质量，然而现有数据集如HOW2和VATEX规模有限，且文本内容往往自足，导致视觉信息的贡献存疑。为深入探究视觉上下文在机器翻译中的作用，厦门大学与字节跳动的研究团队于2023年联合构建了BigVideo数据集。该数据集包含来自西瓜视频和YouTube的15.5万条视频及450万对高质量英中字幕，视频总时长近1万小时，规模较现有同类数据集提升一个数量级。BigVideo的核心研究问题在于验证视觉信息能否有效辅助模糊语义消歧，并推动多模态翻译模型的性能突破。其发布为MMT领域提供了大规模、高多样性的基准资源，对理解视觉与文本的跨模态语义对齐具有重要影响力。

当前挑战

BigVideo所解决的领域挑战在于：现有MMT模型在文本上下文充足时往往忽视视觉信息，导致视觉模态的边际效益不明确。为此，数据集专门设计了AMBIGUOUS测试集，包含需依赖视频消歧的模糊词，以及UNAMBIGUOUS测试集以对比视觉贡献。构建过程中面临多重挑战：首先，需从海量视频中筛选出人工撰写而非自动生成的高质量双语字幕，并通过COMET评分等质量估计方法过滤低质量配对；其次，视频与字幕在时间维度上弱对齐，需重新分割句子并提取关键帧；最后，标注团队需对模糊词进行人工标注，并确保测试集覆盖15个视频类别以维持领域多样性，最终仅保留约36.6%的模糊样本，凸显了数据筛选与标注的复杂性。

常用场景

经典使用场景

在机器翻译研究领域，BigVideo数据集以其前所未有的规模与多样性，成为多模态机器翻译（MMT）的核心基准。该数据集包含155,000个视频片段及450万句对，远超此前广泛使用的HOW2与VATEX数据集。其经典使用场景在于探究视觉信息对字幕翻译的增益作用，尤其是通过精心设计的歧义（AMBIGUOUS）与非歧义（UNAMBIGUOUS）测试集，系统性地检验视频上下文在消解语义模糊性中的关键角色。研究者利用该数据集训练统一编码器-解码器框架，并引入对比学习目标，以弥合文本与视频之间的表征鸿沟，从而验证视觉模态在提升翻译质量上的必要性。

解决学术问题

BigVideo数据集核心解决了多模态机器翻译中视觉信息效用不明确的学术争议。此前研究多基于小规模、低多样性的数据集（如Multi30K），结论倾向于认为视觉信息对翻译的边际贡献有限。BigVideo通过大规模、高质量的视频-字幕配对，揭示了视觉上下文在消歧任务中的显著价值——在歧义测试集上，融合视频输入的模型在BLEU、COMET及BLEURT指标上均超越纯文本基线，且术语级评估（如Exact Match）提升尤为突出。这一发现不仅证实了视觉信息在语义消歧中的必要性，也为构建更鲁棒的跨模态翻译模型提供了理论依据与数据支撑。

衍生相关工作

BigVideo数据集的发布催生了一系列衍生研究，推动了多模态翻译领域的范式演进。受其启发，后续工作探索了基于预训练视觉模型（如ViT、SlowFast）的端到端视频翻译架构，并扩展了对比学习在跨模态表示对齐中的应用。例如，研究者借鉴其“歧义/非歧义”测试集设计思路，构建了针对特定领域（如医疗、法律）的细粒度评估基准。此外，BigVideo中大规模弱对齐视频-文本对为无监督与半监督多模态翻译提供了训练资源，衍生出如层次化注意力网络、动态门控融合等创新模型。这些工作共同验证了大规模视频数据在打破翻译模型性能天花板中的核心地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集