MuST-Cinema

Name: MuST-Cinema
Creator: Bruno Kessler基金会
Published: 2020-02-25 20:40:06
License: 暂无描述

arXiv2020-02-25 更新2024-06-21 收录

下载链接：

https://ict.fbk.eu/must-cinema

下载链接

链接失效反馈

官方服务：

资源简介：

MuST-Cinema是一个多语言语音翻译语料库，由Bruno Kessler基金会创建，包含音频、转录和翻译三元组，特别标注了字幕断点。该数据集解决了现有字幕语料库缺乏源语言音频对齐和字幕断点信息的问题，适用于训练神经机器翻译系统，以自动分割句子为字幕序列。MuST-Cinema的应用领域包括提高字幕翻译的效率和质量，减少人工工作量和相关成本。

MuST-Cinema is a multilingual speech translation corpus developed by the Bruno Kessler Foundation. It consists of audio, transcription and translation triplets, with dedicated annotations for subtitle breakpoints. This corpus addresses a critical limitation of existing subtitle corpora, which lack alignment with source-language audio and subtitle breakpoint information. It is suitable for training neural machine translation systems to automatically segment sentences into subtitle sequences. Its application scenarios include improving the efficiency and quality of subtitle translation, as well as reducing manual workload and associated costs.

提供机构：

Bruno Kessler基金会

创建时间：

2020-02-25

搜集汇总

数据集介绍

构建方式

在视听翻译领域，为满足多语言字幕自动生成的需求，MuST-Cinema数据集基于TED演讲的多语言字幕资源构建而成。该数据集通过整合MuST-C语料库中的音频、转录文本及翻译内容，并利用原始SubRip字幕文件中的时间戳信息，将句子与字幕片段进行精确对齐。在构建过程中，通过插入特殊符号<eob>和<eol>分别标记字幕块的结束和行内换行，从而保留了字幕的时空结构特征。开发集和测试集则从Amara平台手动选取高质量字幕，确保其符合字幕长度与格式约束，并通过InterText工具进行跨语言句子对齐，最终形成包含七种语言的音频-转录-翻译三元组语料库。

特点

MuST-Cinema的独特之处在于其首次将音频对齐与字幕结构信息融合于一体，弥补了现有字幕语料库的不足。该数据集不仅提供源语言音频及其时间元数据，使研究者能够建模字幕的时空约束，还通过特殊符号完整保留了字幕的换行与分块信息，支持端到端的语音到字幕生成任务。此外，数据集的跨语言平行句子结构兼顾了多语言机器翻译的需求，而开发集与测试集的手工校验保障了字幕质量的可靠性，为字幕自动分割、压缩及翻译等任务提供了高质量的基准资源。

使用方法

MuST-Cinema适用于多种字幕相关的研究与应用场景。在模型训练中，可利用其音频-文本对齐数据构建端到端语音翻译系统，直接学习从音频到目标语言字幕的映射关系。通过特殊符号标注的字幕结构信息，可训练序列到序列模型实现自动字幕分割，将完整句子转换为符合时空约束的字幕序列。此外，该数据集支持跨语言机器翻译模型的微调，提升字幕特定场景下的翻译质量。研究者还可基于其元数据开发字幕长度与阅读速度的合规性检测工具，推动字幕自动生成技术的实用化发展。

背景与挑战

背景概述

随着全球视听内容本地化需求的激增，字幕制作领域面临效率与成本的双重压力。在此背景下，由Fondazione Bruno Kessler与University of Trento的研究团队于2020年联合构建的MuST-Cinema语料库应运而生。该数据集基于TED演讲的多语言字幕，创新性地整合了音频、转录文本与翻译文本的三元组结构，并保留了字幕换行与分块的关键信息。其核心研究目标在于为神经机器翻译技术提供任务特定的高质量训练数据，以推动端到端自动字幕生成系统的发展，从而缓解人工字幕制作的繁重负担，提升跨文化内容传播的效率。MuST-Cinema的发布填补了现有字幕语料库在音频对齐与格式约束信息方面的空白，为视听翻译与语音技术领域的交叉研究奠定了重要基础。

当前挑战

MuST-Cinema致力于解决的领域挑战在于实现符合时空约束的自动字幕生成。具体而言，字幕需在严格字符数、行数、阅读速度及语义完整性等多重限制下进行优化翻译，传统机器翻译方法难以直接满足这些综合要求。在构建过程中，研究团队面临两大主要挑战：其一，原始字幕数据中的换行信息在句子对齐过程中常被丢失，导致字幕块与行的结构难以复原；其二，从不同来源获取的字幕文件存在格式不一致问题，例如部分训练数据中的行内换行符号被压缩，需通过模型迭代重新标注以恢复合规的字幕分段。这些挑战要求数据集构建不仅需实现多语言句子的精准对齐，还需设计自动化方法以重建并验证字幕的结构完整性。

常用场景

经典使用场景

在视听翻译领域，随着全球视频点播内容的激增，高效生成多语言字幕的需求日益迫切。MuST-Cinema作为首个整合音频、转录文本与翻译文本并标注字幕断点的多语言语料库，其经典使用场景在于训练端到端的神经机器翻译模型，以自动生成符合时空约束的字幕。该数据集通过保留原始TED演讲的字幕断点信息，使模型能够学习如何在翻译过程中合理分割句子，确保字幕长度、行数与阅读速度符合行业标准，从而为自动化字幕生成提供高质量的训练基础。

衍生相关工作

MuST-Cinema的发布催生了一系列相关研究，尤其是在字幕专用神经机器翻译领域。例如，基于该数据集的序列到序列模型被用于自动插入字幕断点，实现了句子到字幕块的端到端分割。后续工作进一步探索了多模态输入融合，将音频特征与文本结合以优化翻译质量。此外，该数据集启发了对现有字幕语料库的迭代重标注方法，通过模型自动修复缺失的断点信息，扩展了数据资源的可用性，为跨语言字幕生成系统的持续改进提供了关键支撑。

数据集最近研究