Multilingual Intent Classification in Customer Service (MICCS)
收藏arXiv2026-03-24 更新2026-03-26 收录
下载链接:
https://anonymous.4open.science/r/MICCS
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由J&T Express与上海科技大学联合构建,是一个基于真实物流客服日志的多语言意图分类基准,包含约3万条经过脱敏处理的独立用户查询。数据源自60万条历史记录,经规则过滤、大语言模型辅助质量控制及人工验证,构建为包含13个父类别和17个子类别的双层分类体系,涵盖英语、西班牙语、阿拉伯语等主要语言,并支持印尼语、中文等语言的零样本评估。其独特价值在于保留原生查询的噪声分布和语言特性,通过配对提供机器翻译与原生测试集,直接量化合成数据与真实场景的评估差距,主要应用于多语言客户服务系统的意图理解与路由优化。
This dataset was co-developed by J&T Express and ShanghaiTech University, and serves as a multilingual intent classification benchmark based on real logistics customer service logs. It contains approximately 30,000 anonymized independent user queries derived from 600,000 historical records after undergoing rule-based filtering, LLM-assisted quality control, and manual verification. It is structured into a two-tier classification system with 13 parent categories and 17 sub-categories, covering major languages including English, Spanish and Arabic, and supports zero-shot evaluation for languages such as Indonesian and Chinese. Its unique value lies in retaining the noise distribution and linguistic features of native user queries, and provides paired machine-translated and native test sets to directly quantify the evaluation gap between synthetic data and real-world scenarios. It is primarily applied to intent understanding and routing optimization for multilingual customer service systems.
提供机构:
J&T Express; 上海科技大学·信息科学与技术学院
创建时间:
2026-03-24
搜集汇总
数据集介绍

构建方式
在全球化物流平台的客户服务场景中,意图分类系统需处理多语言、多层次的用户查询。为构建贴近真实部署环境的评测基准,MICCS数据集从约60万条历史客服日志中,通过基于规则的过滤、大语言模型辅助的质量控制以及人工验证的半自动化流程,精心筛选出约3万条经过去标识化的独立用户查询。这些查询被组织成一个包含13个父类别和17个子类别的双层意图分类体系,涵盖英语、西班牙语和阿拉伯语作为训练语言,并保留印尼语、中文等作为零样本评估的测试语言。
特点
该数据集的核心特征在于其真实性与对比性设计。所有查询均源自真实的物流客服交互,保留了自然语言中常见的噪声、简写、拼写错误和跨语言变体,能够反映生产环境中长尾标签分布与稀疏性的挑战。尤为重要的是,数据集提供了成对的原始查询与机器翻译测试集,使得研究者能够直接量化合成数据评估与真实用户查询评估之间的性能差距,为衡量多语言模型的现实鲁棒性提供了关键视角。
使用方法
MICCS数据集支持多种意图理解任务的评估。研究者可进行13类父意图的粗粒度分类,或挑战更具操作细分的17类子意图的扁平分类。数据集还支持层次化分类任务,模型可依据提供的分类体系进行结构化预测。在评估协议上,可在已见语言上进行监督学习,或在未见语言上进行零样本迁移评估。通过对比模型在原始查询集与机器翻译集上的表现,能够系统分析模型对真实噪声的鲁棒性及其跨语言泛化能力。
背景与挑战
背景概述
在全球化物流平台客户服务系统中,多语言意图分类是自然语言理解的核心任务,直接影响服务自动化效率与用户体验。针对现有基准大多依赖机器翻译文本、难以反映真实用户查询噪声与分布特性的局限,上海科技大学与极兔速递研究团队于2024年联合构建了MICCS数据集。该数据集从约60万条历史客服日志中,通过去标识化过滤、大语言模型辅助质量控制和人工验证,精选出约3万条独立用户查询,涵盖英语、西班牙语和阿拉伯语三种可见语言,并支持印尼语、中文等零样本评估语言。其采用13个父类别和17个子类别的双层分类体系,旨在为物流客服场景提供更贴近真实部署条件的层次化多语言意图分类基准。
当前挑战
该数据集致力于解决多语言意图分类领域的两大核心挑战:一是真实场景中用户查询的噪声与语言差异性,包括拼写错误、口语化表达、代码混合及长尾标签分布,这些特性在机器翻译生成的洁净数据中往往被平滑,导致模型鲁棒性被高估;二是数据集构建过程中面临的实际困难,需从海量嘈杂的原始日志中提取语义清晰的独立查询,并通过半自动流程确保多语言标注的一致性与准确性,同时设计配对的原生与机器翻译测试集以量化评估差距。
常用场景
经典使用场景
在全球化物流平台的客户服务自动化系统中,多语言意图分类是核心任务。MICCS数据集为这一领域提供了经典评估场景,即对来自真实客服日志的独立用户查询进行分层意图识别。该数据集涵盖了英语、西班牙语和阿拉伯语作为训练语言,并支持对印尼语、中文等语言的零样本迁移评估。其双层分类体系包含13个父意图和17个叶意图,能够模拟实际业务中从粗粒度路由到细粒度操作区分的完整流程。研究人员利用该数据集可系统评估模型在真实噪声文本、长尾分布及跨语言泛化方面的性能,为构建鲁棒的多语言意图理解系统提供基准。
解决学术问题
MICCS数据集主要解决了多语言自然语言理解领域中的关键学术问题。传统基于机器翻译的基准往往因文本过于规范而高估模型在真实场景中的鲁棒性,该数据集通过提供配对的原始查询与翻译测试集,首次实现了对“合成-原生”评估差距的量化测量。它有效应对了真实用户查询中存在的词汇变异、简写、拼写错误及语码混合等挑战,为研究噪声文本下的意图分类、分层标签空间的长尾预测以及零样本跨语言迁移提供了可靠实验平台。其构建推动了学术界对多语言评估真实性的重新审视,促使研究重心从理想化翻译数据转向更贴近部署条件的原生数据。
衍生相关工作
围绕MICCS数据集,一系列经典研究工作得以衍生。在模型架构方面,研究比较了多语言编码器(如mBERT、XLM-R)、基于嵌入的分类器(如EmbeddingGemma)以及指令调优的小型语言模型(如Gemma 3系列)在分层意图分类任务上的表现,揭示了生成式小模型在跨语言泛化和处理长尾类别上相较于传统BERT类模型的潜在优势。在评估方法上,相关工作深入探讨了分层解码策略对分类性能的影响,并建立了基于配对测试集的系统性鲁棒性评估框架。这些工作共同推动了多语言意图分类领域从依赖合成数据到面向真实场景的范式转变,为后续研究提供了方法论基础与性能标杆。
以上内容由遇见数据集搜集并总结生成



