Code-Mixed Goal Oriented Conversation Systems Dataset
收藏arXiv2018-06-15 更新2024-06-21 收录
下载链接:
https://github.com/sumanbanerjee1/Code-Mixed-Dialog
下载链接
链接失效反馈官方服务:
资源简介:
本数据集名为Code-Mixed Goal Oriented Conversation Systems Dataset,由印度理工学院马德拉斯分校创建,旨在支持多语言和代码混合对话系统的发展。数据集包含49167条对话,涵盖了印度四种主要语言(印地语、孟加拉语、古吉拉特语和泰米尔语)与英语的代码混合对话。创建过程中,研究人员采用了内部和众包工作者的混合方式,确保对话的自然性和准确性。该数据集主要用于研究和开发能够理解和生成代码混合语言的对话系统,以满足多语言地区用户的需求。
This dataset, named Code-Mixed Goal Oriented Conversation Systems Dataset, was created by the Indian Institute of Technology Madras, aiming to support the development of multilingual and code-mixed conversational systems. It contains 49,167 dialogues, covering code-mixed conversations between English and four major Indian languages: Hindi, Bengali, Gujarati, and Tamil. During the dataset creation process, researchers adopted a hybrid approach combining internal work and crowdsourced workers to ensure the naturalness and accuracy of the dialogues. This dataset is mainly used for researching and developing conversational systems that can understand and generate code-mixed languages, so as to meet the needs of users in multilingual regions.
提供机构:
印度理工学院马德拉斯分校
创建时间:
2018-06-15
搜集汇总
数据集介绍

构建方式
该数据集基于DSTC2餐厅预订对话数据构建,通过提取其中所有话语并识别出实体占位符(如区域、菜系、价格等),获得3590条独特的话语模板。随后,研究者结合内部标注人员与亚马逊土耳其机器人(AMT)众包平台,邀请母语为印地语、孟加拉语、古吉拉特语和泰米尔语的工人,在保留占位符的前提下,将每条模板翻译为各自母语与英语混合的代码混合版本。翻译完成后,将占位符替换回原始实体,从而生成完整的端到端代码混合对话。
特点
该数据集是首个面向目标导向对话的代码混合语料库,涵盖印地语-英语、孟加拉语-英语、古吉拉特语-英语和泰米尔语-英语四种语言对。数据显示,约87.73%的话语为代码混合形式,仅有少量纯母语或纯英语话语。数据集还提供了丰富的量化指标,如代码混合指数和I指数,并经过内部评估者在口语化、可理解性和连贯性三个维度上的严格验证,评分均较高,表明其自然性与质量。
使用方法
该数据集适用于训练和评估端到端对话生成模型。研究者已基于序列到序列(Seq2Seq)与注意力机制及分层循环编码器-解码器(HRED)模型建立了基线,并使用BLEU-4、ROUGE及逐话语准确率等指标进行评测。数据集以五路平行的形式公开,便于研究者进行跨语言联合训练或单语言代码混合对话系统的开发,代码与数据均在GitHub上可获取。
背景与挑战
背景概述
在自然语言处理领域,对话系统的研究长期聚焦于单语场景,然而在多语种地区如印度,人们日常交流中频繁出现语码混合现象,即在同一对话中自然切换母语与英语。为填补这一空白,印度理工学院马德拉斯分校的Suman Banerjee、Nikita Moghe等研究人员于2018年创建了Code-Mixed Goal Oriented Conversation Systems Dataset。该数据集以DSTC2餐厅预订对话为基础,通过众包与内部标注相结合的方式,构建了印地语-英语、孟加拉语-英语、古吉拉特语-英语和泰米尔语-英语四种语码混合版本,涵盖近五万条话语。这一开创性工作为多语种对话系统研究提供了关键资源,推动了语码混合场景下自然语言理解与生成技术的发展。
当前挑战
该数据集面临的核心挑战在于语码混合对话建模的复杂性。首先,语码混合涉及语言间的动态切换与融合,现有单语模型难以捕捉其形态句法框架与词汇插入规律,导致意图识别和槽位填充精度下降。其次,构建过程中需确保语码混合的自然性与口语化,避免强制翻译,但众包标注者可能因个体差异产生不一致的混合模式,影响数据质量。此外,数据集的规模有限(每语言约六千余条独特话语),且领域局限于餐厅预订,限制了模型在开放域或跨任务场景下的泛化能力。最后,基线实验表明,序列到序列与层级编码器-解码器模型在准确率上仍远未达到实用水平,亟需设计专门针对语码混合特性的对话架构。
常用场景
经典使用场景
在跨语言与多模态对话系统的研究浪潮中,Code-Mixed Goal Oriented Conversation Systems Dataset 为构建能够理解并生成语码混合对话的智能助手提供了关键资源。该数据集的核心应用场景聚焦于目标导向型对话,例如餐厅预订、票务查询等日常任务。研究者利用其包含印地语-英语、孟加拉语-英语、古吉拉特语-英语和泰米尔语-英语四种语码混合版本,训练序列到序列模型或层级循环编码器-解码器模型,以模拟用户在自然交流中无缝切换语言的真实行为。这一场景不仅验证了模型在多语言环境下的泛化能力,还推动了面向印度等多元语言区域的对话系统研发,使虚拟助手能够更流畅地服务于母语与英语混用的用户群体。
实际应用
在实际应用中,该数据集直接赋能多语言虚拟助手的开发与优化,尤其适用于印度、东南亚及非洲等语码混合现象普遍的地区的商业场景。例如,餐厅预订系统的客服机器人可根据用户输入的印地语-英语混合语句(如“kya tum is restaurant mein ek table book kar sakte ho?”),准确提取意图并调用知识库返回结果。此外,该数据集还支持电信客服、电商导购及旅游咨询等领域的对话系统训练,使机器能够理解用户自然混合母语与英语的查询,从而降低交流障碍。其五路平行语料设计更便于构建联合训练模型,显著提升了跨语言迁移效率,为全球化企业提供了低成本、高效率的本地化对话解决方案。
衍生相关工作
该数据集的发布催生了多项衍生研究,成为语码混合对话领域的重要基石。后续工作包括改进的序列到序列模型(如Copy-Augmented Seq2Seq)和混合编码网络(Hybrid Code Networks),这些模型在原有基础上引入了复制机制或强化学习策略,以更精准地处理语码混合中的实体指代与语境依赖。此外,研究者基于该数据集探索了多任务学习框架,将语言识别、词性标注与对话生成联合优化,显著提升了整体性能。在评估方法上,衍生工作提出了针对语码混合文本的定制化指标,如修正后的语码混合指数(Cavg)和语言整合指数(I-index),为量化分析对话质量提供了更科学的工具。这些进展不仅深化了对语码混合现象的理解,还推动了对话系统向更自然、更包容的方向演进。
以上内容由遇见数据集搜集并总结生成



