MobileCS

Name: MobileCS
Creator: 清华大学-中国移动通信集团有限公司联合研究院
Published: 2022-10-18 14:15:28
License: 暂无描述

arXiv2022-10-18 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2209.13464v2

下载链接

链接失效反馈

官方服务：

资源简介：

MobileCS数据集是由清华大学-中国移动通信集团有限公司联合研究院创建的，包含10000条真实世界对话记录，这些记录来自中国移动的真实用户与客服人员的交互。数据集通过众包方式标注，每条对话记录都包含了实体、属性三元组和说话者的意图。创建过程中，研究人员根据对话记录总结出一套模式，并据此进行标注。该数据集主要用于构建任务导向型对话系统，旨在解决从对话中提取结构化信息以构建知识库的问题，特别适用于评估对话系统的构建和信息提取能力。

The MobileCS dataset was developed by the Joint Research Institute of Tsinghua University and China Mobile Communications Group Co., Ltd. It contains 10,000 real-world conversation records originating from interactions between actual China Mobile users and customer service representatives. The dataset is annotated via crowdsourcing, with each conversation record including entity-attribute triples and the speaker's intent. During its creation, researchers summarized a set of annotation patterns based on the collected conversation records and conducted annotations in accordance with these patterns. This dataset is primarily used for building task-oriented dialogue systems, aiming to address the challenge of extracting structured information from conversations to construct knowledge bases, and is particularly suitable for evaluating the construction of dialogue systems and their information extraction capabilities.

提供机构：

清华大学-中国移动通信集团有限公司联合研究院

创建时间：

2022-09-27

搜集汇总

数据集介绍

构建方式

在面向任务的对话系统研究领域，构建高质量数据集是推动技术进步的关键。MobileCS数据集的构建基于中国移动真实客服对话记录，通过专业标注团队对约一万条对话进行精细标注，涵盖实体、属性三元组及说话者意图等结构化信息。标注过程遵循严谨的指南，并采用交叉校验机制确保数据质量，最终形成包含训练集、开发集和测试集的标准化数据集，为真实场景下的对话研究提供了宝贵资源。

特点

MobileCS数据集显著区别于传统的Wizard-of-Oz模拟数据，其核心特征在于真实性与复杂性。该数据集源自实际客服对话转录文本，呈现出自然对话的嘈杂性与随意性，包含重复确认、插话等真实语言现象。此外，数据集标注了细粒度的实体与属性信息，并引入了局部知识库的概念，为对话系统提供了丰富的上下文支撑，从而更贴近现实应用场景的挑战。

使用方法

MobileCS数据集主要支持两项核心任务：对话信息抽取与任务型对话系统构建。在信息抽取任务中，研究者可利用该数据集训练模型从对话文本中提取实体及属性，进而构建知识库。对于对话系统任务，数据集提供了用户意图、系统意图及局部知识库等标注，可用于训练端到端的生成式对话模型。使用前建议进行数据清洗，以去除冗余对话轮次，从而提升模型训练效果与系统性能。

背景与挑战

背景概述

MobileCS数据集于2022年由清华大学与中国移动通信集团联合研究院发布，旨在推动面向真实任务的人机对话系统研究。该数据集源自中国移动客服中心真实用户与客服人员之间的对话转录，包含约一万条经过标注的对话，覆盖实体、属性三元组及说话者意图等结构化信息。其核心研究问题在于弥合传统Wizard-of-Oz模拟对话数据与真实场景对话之间的差距，为任务导向对话系统提供更贴近实际应用的训练与评估基准，对自然语言处理领域向现实任务迁移具有重要影响力。

当前挑战

MobileCS数据集所解决的领域问题在于从真实对话中构建任务导向对话系统，其挑战体现在对话文本的噪声处理、长距离指代消解以及口语化表达的语义解析。构建过程中的挑战主要包括：真实对话中存在大量重复、确认及插话等冗余现象，需设计有效的清洗策略；标注体系需在实体类型继承关系下保持一致性，避免粒度混淆；此外，如何从松散的口语转录中提取结构化知识以构建局部知识库，亦是该数据集面临的核心难题。

常用场景

经典使用场景

在面向任务的对话系统研究中，MobileCS数据集为构建真实场景下的人机对话系统提供了关键基准。该数据集源自中国移动客服中心实际用户与客服人员之间的对话转录文本，涵盖了通信服务领域的多样化交互情境。其经典应用场景集中于评估和优化任务导向对话系统的核心能力，包括信息抽取与对话生成两大任务，为研究者提供了贴近现实噪声与复杂性的训练与测试环境。

实际应用

在实际应用层面，MobileCS数据集为通信行业的智能客服系统开发提供了直接支撑。基于该数据集训练的模型能够更好地理解用户关于套餐查询、资费咨询、业务办理等多样化需求，并从真实对话中准确提取用户属性、服务条目及操作意图。这类系统可部署于在线客服平台或语音助手，实现自动化响应与信息管理，显著提升服务效率与用户体验，并为其他垂直领域如金融、医疗的对话系统开发提供可借鉴的实战范本。

衍生相关工作

围绕MobileCS数据集，学术界已衍生出一系列聚焦真实场景对话处理的研究工作。例如，SereTOD挑战赛基于该数据集设立信息抽取与对话系统构建双任务，催生了多篇针对噪声对话的实体识别与核心ference解析的改进模型。同时，该数据集也促进了面向真实对话的预训练语言模型适配研究，如结合本地知识库的查询机制设计、长对话历史压缩方法，以及针对口语冗余现象的清洗与建模技术，这些工作共同推动了任务导向对话系统向实用化迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集