five

MAVL: Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation|歌词翻译数据集|多模态数据数据集

收藏
arXiv2025-05-24 更新2025-05-28 收录
歌词翻译
多模态数据
下载链接:
http://arxiv.org/abs/2505.18614v1
下载链接
链接失效反馈
资源简介:
MAVL是一个多语言、多模态数据集,用于评估动画歌曲翻译中的歌词翻译模型。它包含228首歌曲的歌词、音频和视频数据,涵盖了五种语言:英语、西班牙语、法语、日语和韩语。数据集的创建过程涉及从各种来源收集歌词,并进行人工校验和音频视频对齐。MAVL旨在解决歌词翻译中保持音乐节奏、音节结构和诗歌风格准确语义传递的挑战。
提供机构:
韩国延世大学人工智能系
创建时间:
2025-05-24
AI搜集汇总
数据集介绍
main_image_url
构建方式
MAVL数据集通过多模态对齐技术构建,整合了文本、音频和视频信息。首先从last.fm和genius平台收集动画电影音乐的元数据和英文歌词,随后通过lyricstranslate.com获取西班牙语、法语、韩语和日语等官方配音版本的歌词。为确保数据质量,采用人工对齐流程验证歌词的官方性和可唱性,并利用Whisper模型的stable-ts工具实现歌词与音视频的精确时间戳对齐。
特点
MAVL作为首个支持多语言(英语、西班牙语、法语、日语、韩语)和多模态(文本、音频、视频)的歌词翻译基准,其核心特点在于实现了跨模态的语义同步。数据集包含228首动画歌曲,每首歌曲的歌词均按段落和行级进行精细标注,并配备音节计数和音标转写信息。特别值得注意的是,该数据集通过专业配音版本保留了文化适应性和音乐性特征,为研究可唱性翻译提供了独特的多模态上下文。
使用方法
使用MAVL数据集时,建议采用三步分析法:首先通过音视频模态理解歌曲的节奏和情感基调;其次利用对齐的文本数据训练或评估翻译模型的语义保持能力;最后结合音节约束条件优化翻译输出的音乐适配性。对于评估任务,可采用数据集提供的音节误差、语义相似度和语音距离等多维指标,特别推荐通过对比原始歌词与配音版本的翻译结果来全面衡量模型性能。
背景与挑战
背景概述
MAVL(Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation)是由延世大学人工智能系的研究团队于2025年推出的首个多语言、多模态的可唱歌词翻译基准数据集。该数据集旨在解决动画歌曲翻译中语义传递与音乐性(如节奏、音节结构和诗意风格)保持的双重挑战。通过整合文本、音频和视频数据,MAVL为研究者提供了比纯文本方法更丰富、更具表现力的翻译资源。该数据集的推出填补了多模态歌词翻译领域的空白,并为相关研究提供了重要的实验平台。
当前挑战
MAVL数据集面临的主要挑战包括:1) 领域问题挑战:歌词翻译需要同时保持语义准确性和音乐性,特别是在动画歌曲中还需与视听线索对齐,这对传统机器翻译模型提出了更高要求;2) 构建过程挑战:多语言歌词与音视频数据的精确对齐存在技术难度,特别是在处理重叠人声、对话或拟声词时;3) 评估挑战:现有自动评估指标难以全面衡量翻译结果的音乐性和艺术风格,需要开发更全面的评估体系。此外,数据集目前主要关注动画音乐剧,对其他音乐类型的泛化能力仍需验证。
常用场景
经典使用场景
在动画音乐翻译领域,MAVL数据集为研究者提供了首个多语言、多模态的歌词翻译基准。通过整合文本、音频和视频数据,该数据集支持对歌词翻译中音乐性保持问题的系统性研究。其典型使用场景包括开发能够同时处理语义准确性和节奏匹配的翻译模型,特别是在迪士尼等动画电影的歌曲翻译任务中,研究者可利用该数据集训练模型在保留原意的基础上,确保翻译后的歌词与旋律节奏完美契合。
实际应用
在实际应用层面,MAVL数据集显著提升了动画电影本地化制作的质量。以迪士尼《冰雪奇缘》主题曲翻译为例,基于该数据集训练的模型能够生成既符合角色口型又保持原曲韵律的多语言版本。影视制作公司可借助该技术实现高效的音乐本地化,流媒体平台则能提供更优质的配音版本,最终增强全球观众的沉浸式观赏体验。
衍生相关工作
该数据集已催生多项创新性研究,最具代表性的是SylAVL-CoT框架。该工作首次将思维链推理引入多模态歌词翻译,通过音节约束和视听线索融合显著提升翻译质量。后续研究如Kim等人开发的K-pop歌词翻译模型、Guo等人的声调语言专用翻译系统,均建立在MAVL提供的多模态基准之上,推动了音乐信息检索与计算语言学交叉领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

Simulation of rear wheel steering in a vehicle towing a single axle trailer with variable load distribution

This is the dataset for a publication on the stability of automotive vehicles when towing single axle trailers. The loading of the trailer is critical for stability, if the load distribution is too far back, then the trailer will begin to sway uncontrollably, dictating the track of the vehicle.In this research, small proportional control of the rear wheel steering of a larger towing vehicle is shown to be able to further stabilize the system easily, thus improving the safety margin. This is based on control measurements of the yaw angle, either directly measured or inferred from rear camera / parking sensor measurements.The simulation environment is Simulink and all scripts are included to initialise and plot the results. The work is based on the built in example "Two axle vehicle towing one axle trailer" with modifications to enable control algorithms for rear wheel steering control and variable load distribution. Reference for the original model is available at:T. M. Inc., Vehicle dynamics blockset version: 2.0 (r2023a) (2022). https://www.mathworks.comT. M. Inc., Trailer body 3dof documentation (2020). https://uk.mathworks.com/help/vdynblks/ref/trailerbody3dof.html<br>

DataCite Commons 收录