five

FunCineForge

收藏
github2026-01-17 更新2026-01-18 收录
下载链接:
https://github.com/xuan3986/FunCineForge
下载链接
链接失效反馈
官方服务:
资源简介:
FunCineForge包含一个端到端的数据集工具包,用于生产大规模配音数据集,以及一个基于MLLM的配音模型,专为多样化的电影场景设计。使用这个工具包,我们构建了第一个大规模中文电视配音数据集,其中包括丰富的注释和多样化的场景。在独白、旁白、对话和多说话者场景中,我们的配音模型在音频质量、唇形同步、音色转换和指令遵循方面始终优于最先进的方法。

FunCineForge includes an end-to-end dataset toolkit for generating large-scale dubbing datasets, as well as an MLLM-based dubbing model tailored for diverse film scenarios. Leveraging this toolkit, we constructed the first large-scale Chinese TV dubbing dataset, which features rich annotations and diverse scene settings. In monologue, voiceover, dialogue, and multi-speaker scenarios, our dubbing model consistently outperforms state-of-the-art methods across audio quality, lip-sync accuracy, voice conversion, and instruction following capabilities.
创建时间:
2025-12-19
原始信息汇总

FunCineForge 数据集概述

数据集简介

FunCineForge 是一个用于零样本电影配音的统一数据集工具包和模型,专注于多样化的电影场景。该工具包构建了首个大规模中文电视剧配音数据集,包含丰富的标注和多样化的场景。

数据集内容与特点

  • 场景多样性:数据集涵盖独白、旁白、对话和多说话者场景。
  • 标注丰富性:包含情感线索、角色年龄、性别和音色信息。
  • 高质量标注:采用大模型+小模型解决方案,将词错误率(WER)从3.2%降低至0.6%,说话人ID错误率从4.3%降低至1.2%,达到甚至优于人工转录的质量。

数据集获取与示例

数据集样本和演示样本可通过以下地址访问: https://anonymous.4open.science/w/FunCineForge/

数据集构建工具包

环境要求

  • 操作系统:Linux
  • Python版本:>= 3.8
  • Pytorch版本:>= 2.1
  • 依赖工具:FFmpeg

数据收集要求

  1. 视频源:电视剧或电影(非纪录片),包含较多独白或对话场景,人脸清晰无遮挡。
  2. 语音要求:发音标准、吐字清晰、人声突出,避免方言重、背景噪声大或口语化过强的素材。
  3. 图像要求:高分辨率、面部细节清晰、光照充足,避免极暗或强逆光场景。

数据处理流程

  1. 视频标准化:将视频格式标准化为mp4,使用libx264和libmp3lame编码;裁剪电视剧片头片尾(默认各裁剪5分钟)。
  2. 视频剪辑:对长序列视频,使用VAD获取句子级片段,通过ASR生成字幕文件,并切割视频。
  3. 视频时长限制与字幕清洗:清理不符合时长要求的视频和字幕文件。
  4. 语音分离:从音频中分离人声和伴奏音乐。
  5. 说话人日志:通过多模态主动说话人识别获取RTTM文件;识别说话人面部帧,提取帧级说话人面部和嘴唇原始数据,从面部帧中识别说话帧,并提取说话帧的面部特征。
  6. 思维链标注:基于多模态大语言模型,以音频、ASR文本和RTTM文件为输入,通过思维链提取情感线索,并使用大模型校正小模型解决方案以减少ASR错误,同时标注角色年龄、性别和音色信息。
  7. 数据集构建:清洗和校正思维链结果;确定视频剪辑类型(独白、对话、多人、旁白);划分训练集和测试集;生成索引。

配音模型

FunCineForge配音模型的源代码和检查点将在论文被接受后开源。

使用声明

  • 此匿名仓库仅作为同行评审的补充材料。
  • 本仓库仅用于学术/研究目的。
  • 本仓库受特定许可条款约束。
搜集汇总
数据集介绍
main_image_url
构建方式
在影视配音领域,高质量数据集的构建是推动技术革新的基石。FunCineForge数据集通过一套端到端的工具包实现大规模生成,其构建流程始于对原始视频材料的严格筛选,要求视频源为电视剧或电影,具备清晰的发音、高分辨率的图像以及无遮挡的面部特征。随后,利用自动化工具进行视频格式标准化、片头片尾裁剪,并基于语音活动检测技术将长视频切割为句子级别的片段。通过自动语音识别生成字幕文件,再结合语音分离技术剥离人声与背景音乐,并运用多模态说话人日志识别技术标注说话人身份。最终,借助大语言模型的思想链推理能力,对音频、文本及说话人信息进行情感线索提取与纠错,自动标注角色年龄、性别及音色属性,从而构建出首个大规模中文电视配音数据集,其质量经实验验证可媲美人工标注。
特点
该数据集在影视配音研究领域展现出显著的多维优势。其核心特点在于覆盖了丰富的场景类型,包括独白、旁白、对话及多人对话等多种影视情境,为模型训练提供了全面的语境支持。数据集蕴含精细的标注信息,不仅包含精准的语音转录文本,还整合了说话人身份、情感线索以及角色的人口统计学特征如年龄、性别和音色,这些多模态注释极大地增强了数据的语义深度。此外,通过大语言模型与小模型协同的纠错机制,数据集的语音识别错误率与说话人识别错误率均降至极低水平,确保了标注的高可靠性。这种高质量、多场景、细粒度的数据特性,为开发先进的零样本配音模型奠定了坚实基础。
使用方法
为有效利用该数据集进行学术研究,使用者需遵循其配套工具包提供的系统化流程。首先,需配置Python环境并安装必要的依赖项,包括FFmpeg等多媒体处理工具。数据预处理阶段,通过执行标准化脚本将视频统一为MP4格式,并裁剪无关片段。随后,调用视频切割模块,利用语音活动检测与自动语音识别技术生成句子级视频片段及对应字幕。进一步,可运行语音分离与说话人日志识别模块,以提取纯净人声并标注说话人轨迹。数据标注与增强环节,通过运行思想链推理脚本,输入音频、文本及说话人日志文件,借助大语言模型API生成情感、角色属性等高级注释。最终,利用数据集构建脚本完成数据清洗、场景分类及训练测试集划分,生成可直接用于模型训练的结构化索引。整个流程高度自动化,支持断点续传,确保了数据处理的高效与可复现性。
背景与挑战
背景概述
随着人工智能在多媒体生成领域的深入发展,电影配音作为跨模态内容创作的关键环节,面临着从传统人工制作向自动化、智能化转型的迫切需求。在此背景下,FunCineForge数据集应运而生,由匿名研究团队于近期构建,旨在为零样本电影配音任务提供首个大规模中文电视剧配音数据集。该数据集不仅整合了丰富的多模态标注信息,涵盖独白、旁白、对话及多说话者等多种电影场景,更通过先进的工具链实现了从原始视频到结构化数据的自动化处理。其核心研究问题聚焦于如何利用大规模语言模型提升配音生成的质量与适应性,推动语音合成、唇形同步及音色转换等技术的融合创新,为影视后期制作与个性化内容生成开辟了新的研究路径。
当前挑战
FunCineForge数据集致力于解决零样本电影配音这一复杂领域问题,其挑战主要体现在多模态对齐与生成质量上。具体而言,配音任务需在保持音频自然度的同时,实现精准的唇形同步与情感一致性,这对模型在跨场景泛化能力提出了极高要求。此外,数据构建过程亦面临诸多困难:原始视频素材需满足发音标准、面部清晰及光照适宜等严格筛选条件;自动化处理流程中,语音分离、说话人日志及情感标注等环节易受背景噪声、方言干扰及多说话人重叠的影响,导致标注误差累积。尽管引入思维链与大模型校正机制显著降低了错误率,但如何进一步提升数据标注的鲁棒性与效率,仍是未来优化的关键方向。
常用场景
经典使用场景
在影视配音领域,FunCineForge数据集为多模态语音合成研究提供了关键支撑。其经典使用场景集中于零样本电影配音任务,通过整合大规模中文电视剧配音数据,涵盖独白、叙述、对话及多说话者等多样化场景。研究者可借助该数据集训练模型,以生成与原始视频口型同步、音质清晰且情感连贯的配音音频,显著提升跨语言影视内容的本地化制作效率。
实际应用
在实际应用层面,FunCineForge数据集推动了智能配音技术的产业化落地。其衍生的配音模型可广泛应用于影视剧本地化配音、教育视频多语言适配、虚拟数字人生成等领域。例如,在跨文化影视传播中,该技术能快速生成符合目标语言习惯且保留原片情感表达的配音版本,大幅缩减传统人工配音的时间与经济成本。同时,在无障碍媒体服务中,其为视障群体提供高同步性的音频描述内容,增强了媒体内容的可及性。
衍生相关工作
围绕FunCineForge数据集,已衍生出一系列经典研究工作。基于其构建的端到端配音工具链,研究者开发了融合多模态大语言模型的配音生成框架,在音频质量、口型同步等指标上超越了现有先进方法。该数据集进一步催生了针对说话人日志、情感感知语音合成等任务的优化算法,相关成果发表于语音与多媒体计算顶级会议。此外,其提供的标准化数据处理流程也为后续跨语种、跨场景配音数据集的构建提供了可复现的范式参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作