CoMuMDR

Name: CoMuMDR
Creator: 印度理工学院坎普尔分校（IIT Kanpur）
Published: 2025-06-10 15:01:30
License: 暂无描述

arXiv2025-06-10 更新2025-06-12 收录

下载链接：

https://github.com/Exploration-Lab/CoMuMDR

下载链接

链接失效反馈

官方服务：

资源简介：

CoMuMDR是一个大规模的混合代码（印地语和英语），多模态（文本+音频），多领域的话语语料库，用于对话中的话语解析。语料库包含客户呼叫中心互动的音频记录及其相应的转录文本，并标注了九种话语关系。数据集来自多个领域，包括电子商务、医药、股票经纪应用支持、电子市场和教育。语料库已标注，以创建用于链接预测和话语关系分类的标记话语图。标注是在跨度级别进行的，有九种话语关系类型，这些类型很好地支持了客户呼叫中心的信息流。CoMuMDR旨在创建一个实用的、现实世界的系统，处理音频对话，并且对转录和话者分割错误具有鲁棒性。

CoMuMDR is a large-scale mixed-code (Hindi and English), multimodal (text + audio), multi-domain discourse corpus for discourse parsing in conversational contexts. The corpus contains audio recordings of customer call center interactions and their corresponding transcriptions, annotated with nine types of discourse relations. The dataset is sourced from multiple domains, including e-commerce, healthcare, stock brokerage application support, electronic marketplaces, and education. The corpus has been annotated to construct labeled discourse graphs for link prediction and discourse relation classification. Annotations are conducted at the span level, covering nine discourse relation types that effectively support the information flow within customer call center interactions. CoMuMDR is intended to support the development of practical, real-world systems that process audio conversations and are robust to transcription and speaker diarization errors.

提供机构：

印度理工学院坎普尔分校（IIT Kanpur）

创建时间：

2025-06-10

原始信息汇总

CoMuMDR数据集概述

数据集简介

名称：CoMuMDR (Code-mixed Multi-modal Multi-domain corpus for Discourse paRsing in conversations)
类型：多模态多领域语料库
用途：支持对话中话语解析的研究

核心特征

语言：印地语和英语混合编码(Hinglish)
模态：包含音频和转录文本
标注：标注了九种话语关系
领域：多领域

数据集内容

数据形式：对话形式
挑战性：现有SoTA模型在该数据集上表现不佳，突显了多领域混合编码数据的挑战

数据集获取

托管平台：Hugging Face
访问地址：https://huggingface.co/datasets/Exploration-Lab/CoMuMDR

基线模型

分层基线模型 (hierarchical/)
SADPMD基线模型 (sadpmd/)
SDDP基线模型 (sddp/)
结构感知基线模型 (struct-aware/)

评估结果

评估文件：epoch_scores.csv
可视化结果：epoch_scores.pdf

联系方式

联系人邮箱：{divyaksh,ashutoshm}@cse.iitk.ac.in

搜集汇总

数据集介绍

构建方式

CoMuMDR数据集的构建基于多领域客户服务中心的双语（印地语-英语）音频对话，通过自动语音识别（ASR）系统将音频转录为文本，并利用说话人分离技术将对话分割为不同发言者的语句。为确保数据隐私，转录文本经过匿名化处理，去除所有个人身份信息。随后，由专业标注团队对文本进行标注，识别基本话语单位（EDU）并标注九种话语关系类型，以构建有向无环图（DAG）形式的话语结构。标注过程中还修正了因说话人重叠或分割错误导致的语句不连续问题。

特点

CoMuMDR数据集的核心特点在于其多模态（音频与文本）、多领域（涵盖电商、医药、教育等）及混合语言（印地语-英语）属性。该数据集包含799段对话，共计8811条语句，标注了包括问答对、确认、背景说明等九种话语关系，充分反映了真实客服对话的复杂性和多样性。与现有单语单领域数据集（如STAC、Molweni）相比，CoMuMDR在语言混合、领域覆盖及音频模态的整合上具有显著优势，同时也提出了因语音转录错误和说话人重叠带来的独特挑战。

使用方法

CoMuMDR数据集适用于话语解析模型的训练与评估，尤其针对多语言混合和跨领域对话场景。研究者可通过加载预处理的文本转录、音频特征及标注文件，构建话语链接预测和关系分类任务。实验设计需考虑多模态融合策略，例如联合建模文本嵌入与声学特征。此外，数据集支持对现有模型在噪声环境（如转录错误）下的鲁棒性测试。为保护隐私，实际音频未公开，但提供了文本嵌入及话语结构标注，用户可基于公开的基线模型代码复现实验或开发新方法。

背景与挑战

背景概述

CoMuMDR是由印度理工学院坎普尔分校（IIT Kanpur）与Convin-AI合作于2025年推出的多模态多领域语料库，专注于印地语-英语混合编码（Hinglish）的对话话语解析研究。该数据集包含来自电子商务、医药、股票经纪应用支持等多元场景的客服通话录音及转写文本，标注了九种话语关系类型，填补了现有语料库在混合语言、多模态（音频+文本）及跨领域话语分析方面的空白。其创新性体现在真实场景下的语音转录错误处理及说话人重叠标注，为对话理解系统提供了更贴近实际应用的评估基准。

当前挑战

领域挑战方面，CoMuMDR需解决混合语言对话中语法结构混杂导致的语义歧义问题，以及多领域场景下话语关系分布的差异性。构建挑战包括：1) 语音转写与说话人分离的误差修正，需人工标注修正重叠对话片段；2) 印地语-英语混合编码的标注规范制定，要求标注者具备双语文化背景；3) 话语关系标注的高复杂度，如条件关系与交替关系的语义边界模糊，导致标注一致性较低（Kappa值仅0.4）。现有SOTA模型在该数据集上表现不佳（关系分类F1-score最高仅0.55），凸显了跨模态跨语言话语解析模型的开发需求。

常用场景

经典使用场景

在自然语言处理领域，CoMuMDR数据集为多模态、多领域和代码混合的对话语篇解析提供了重要资源。该数据集特别适用于研究跨语言和跨模态的语篇结构分析，尤其在处理印地语和英语混合的客户服务中心对话时表现出独特的价值。研究者可以利用该数据集探索多语言环境下的语篇关系识别、对话结构建模以及跨模态信息融合等核心问题。

衍生相关工作

围绕CoMuMDR数据集，研究者已开展多项延伸工作。在模型架构方面，出现了融合音频特征的跨模态语篇解析模型；在应用层面，衍生出面向代码混合对话的自动摘要系统和情感分析工具。该数据集还促进了多语言预训练模型在语篇理解任务中的适配研究，为处理低资源语言混合场景提供了新的基准。

数据集最近研究