five

Multi-task Classical Chinese Literary Genre Audio Corpus (MCGA)

收藏
arXiv2026-04-13 更新2026-04-17 收录
下载链接:
https://github.com/yxduir/MCGA
下载链接
链接失效反馈
官方服务:
资源简介:
MCGA是由哈尔滨工业大学、鹏城实验室等机构联合创建的首个大规模开源古典文学音频语料库,包含22,000个样本(119小时),涵盖赋、诗、文、词、曲五种文体。数据通过专业录音志愿者采集,经双重质量校验,具有明确的版权授权。该数据集支持语音识别、语音翻译、情感标注等六项核心任务,旨在解决多模态大模型在古典文学音频领域的评估与训练瓶颈,为文化保护与人工智能交叉研究提供基础资源。

MCGA is the first large-scale open-source classical literature audio corpus jointly developed by Harbin Institute of Technology, Peng Cheng Laboratory and other institutions. It comprises 22,000 samples with a total duration of 119 hours, covering five major classical Chinese literary genres: fu (rhymatic prose), shi (classical poetry), wen (prose), ci (lyric poetry) and qu (Yuanqu-style opera lyrics). The corpus data was collected by professional volunteer recorders, subjected to dual-stage quality verification, and has obtained explicit copyright authorization. This corpus supports six core tasks including speech recognition, speech translation and emotion annotation. It aims to address the bottlenecks in the evaluation and training of multimodal large language models (LLMs) in the domain of classical literature audio, and provides foundational resources for interdisciplinary research combining cultural heritage protection and artificial intelligence.
提供机构:
哈尔滨工业大学; 鹏城实验室; 华南理工大学; 度小满
创建时间:
2026-01-14
原始信息汇总

MCGA 数据集概述

数据集简介

MCGA(多任务古典文学体裁音频语料库)是首个专为古典文学研究设计的大规模、开源、全版权音频语料库。它旨在弥合领域特定音频资源的差距,并提升多模态大语言模型的多维能力。

核心属性

  • 语言:中文
  • 数据规模:包含 22,000 个音频样本,总计 119 小时。
  • 数据划分:训练集 / 验证集 / 测试集
  • 音频来源:由母语者录制(13 位男性和 15 位女性)
  • 领域:古典文学研究
  • 文学体裁:涵盖赋、诗、文、词、曲五种主要体裁。
  • 历史时期:横跨 11 个历史时期。

支持任务

该语料库专门构建以支持六项核心的语音中心任务:

  • 自动语音识别
  • 语音到文本翻译
  • 语音情感描述
  • 口语问答
  • 语音理解
  • 语音推理

获取与使用

  • Hugging Face 地址:https://huggingface.co/datasets/yxdu/MCGA
  • 论文地址:https://arxiv.org/abs/2601.09270
  • 许可证:CC BY-NC-SA-4.0

重要说明

测试集已优先发布,以支持公平的基准测试。完整数据集将很快提供。

引用

如需在研究中引用本数据集,请使用提供的 BibTeX 条目。

搜集汇总
数据集介绍
main_image_url
构建方式
在古典文学音频资源相对匮乏的背景下,MCGA数据集的构建遵循了严谨的多阶段流程。其核心文本素材来源于公共领域的古典文学作品,经过清洗与分段处理,确保每段音频时长控制在30秒以内。随后,研究团队招募了28位以普通话为母语的志愿者进行专业录音,并制定了严格的录制规范,要求朗读者依据文本情感调整语调,且每段文本至少由一男一女两位朗读者录制。在数据质量控制环节,采用了基于大语言模型的自动校验与人工审查相结合的方式,对音频的发音准确性与背景噪音进行了双重筛查,最终形成了包含22,000个样本、总计119小时的高质量语音语料库。
特点
MCGA数据集最显著的特点在于其任务与体裁的双重多样性。该数据集专为评估多模态大语言模型在古典文学领域的音频理解能力而设计,系统性地涵盖了自动语音识别、语音到文本翻译、语音情感描述、口语问答、语音理解与语音推理六大核心任务。在内容广度上,它囊括了赋、诗、文、词、曲五大主要文学体裁,横跨十一个历史时期,形成了37个独特的时期-体裁类别,共计收录4,497部文学作品。这种多维度的覆盖使其成为首个大规模、开源且完全解决版权问题的古典中文文学音频数据集,为相关研究提供了前所未有的基准资源。
使用方法
该数据集主要服务于多模态大语言模型在古典中文研究领域的评估与能力提升。研究者可利用其提供的六项标准化任务,系统性地测试模型在语音转写、跨语言翻译、情感分析、内容理解与复杂推理等方面的性能。数据集附带了针对语音情感描述任务设计的领域专用指标——情感描述保真度,以及用于量化模型听觉与文本模态间一致性的跨模态一致性指标,为性能评估提供了细粒度的分析工具。此外,其高质量的平行语音-文本数据也支持模型进行微调训练,以显著提升在古典文学音频任务上的表现,推动更鲁棒的多模态模型发展。
背景与挑战
背景概述
随着多模态大语言模型在中华古典文学研究领域的快速发展,音频模态的语料资源长期处于匮乏状态。为填补这一空白,哈尔滨工业大学、鹏城实验室等机构的研究团队于2026年联合构建了多任务古典文学体裁音频语料库。该数据集包含119小时、涵盖赋、诗、文、词、曲五种体裁的22000条高质量音频样本,并支持自动语音识别、语音情感描述等六项核心任务。作为首个大规模、具备完整版权的古典文学音频资源,其发布旨在推动音频模态在文化遗产数字化保护与智能理解方面的深入探索。
当前挑战
该数据集致力于解决古典文学多模态理解中音频信息缺失的核心问题,其构建面临多重挑战。在领域问题层面,古典文学语言凝练、用典频繁且情感意境深远,对模型的语音识别准确度、跨语言诗意转换的审美保持、以及复杂文化背景下的情感与逻辑推理能力提出了极高要求。在构建过程中,挑战主要体现在确保文化表达的准确性、录制语音的情感一致性、以及处理生僻字与通假字带来的识别困难。此外,为满足学术开源要求,团队需通过严谨的版权转让协议解决音频素材的长期知识产权问题,并设计针对文学情感描述与跨模态一致性评估的新型评测指标。
常用场景
经典使用场景
在古典文学与人工智能交叉领域,MCGA数据集为多模态大语言模型的音频理解能力提供了基准测试平台。该数据集最经典的使用场景是系统评估模型对古典汉语文学音频的跨模态处理能力,涵盖自动语音识别、语音情感描述、口语问答等六项核心任务。研究者通过MCGA能够全面检验模型在韵律分析、情感解析、文化背景推理等方面的表现,尤其针对赋、诗、词、曲、文五种文体的声学特征差异进行细粒度评测。这种多任务集成框架使得MCGA成为衡量模型在中华古典文化音频理解领域成熟度的权威标尺。
实际应用
在文化遗产数字化保护领域,MCGA数据集支撑着智能吟诵系统、古典文学有声资源库等实际应用场景的构建。教育机构可基于该数据集开发交互式古典诗词教学系统,通过语音情感分析技术还原作品的声韵意境;文化传播平台则能利用其多任务处理能力,实现古典文献的智能朗诵与跨语言传播。博物馆与数字档案馆可借助该数据集的版权清晰特性,安全地构建古典文学音频数据库,为公众提供兼具学术准确性与艺术感染力的文化体验,促进中华优秀传统文化的创新性传承。
衍生相关工作
MCGA数据集的发布催生了古典文学多模态研究的新方向,衍生出系列经典研究工作。在评测体系方面,研究者基于其任务框架扩展开发了针对特定文体(如宋词声韵分析)的专项评测基准;在模型优化领域,多家团队利用该数据集训练了具备古典文学特化能力的语音理解模型,如Qwen-Omni-MCGA等适配模型。跨模态对齐研究则受其CMC指标启发,提出了更精细的语音-文本一致性增强方法。这些衍生工作共同推动了古典文化计算从单模态分析向视听融合理解的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作