DeepPavlov/multiwoz_es
收藏Hugging Face2026-05-05 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/DeepPavlov/multiwoz_es
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多领域任务导向的对话数据,涵盖旅游景点、酒店、餐厅、出租车、火车和医院等场景。每个对话样本包括对话ID、历史记录和文本内容,并涉及多个属性字段,如景点区域、名称和类型,酒店区域、名称、类型、价格范围、星级、停车和网络设施,餐厅区域、名称、食物类型、价格范围和预订信息,出租车和火车的出发地、目的地、到达时间和离开时间,以及医院科室。数据集用于支持对话系统、自然语言理解和生成任务,包含训练集(56,668个样本)、开发集(7,374个样本)和测试集(7,368个样本)。
This dataset contains multi-domain task-oriented dialogue data, covering scenarios such as tourist attractions, hotels, restaurants, taxis, trains, and hospitals. Each dialogue sample includes dialogue ID, history, and text content, with multiple attribute fields like attraction area, name, and type; hotel area, name, type, price range, stars, parking, and internet; restaurant area, name, food type, price range, and booking information; taxi and train departure, destination, arrival time, and leave time; and hospital department. The dataset is designed to support dialogue systems, natural language understanding, and generation tasks, and includes training set (56,668 examples), development set (7,374 examples), and test set (7,368 examples).
提供机构:
DeepPavlov
搜集汇总
数据集介绍

构建方式
multiwoz_es数据集是基于英文多轮对话数据集MultiWOZ进行西班牙语翻译与适配构建而成的。原始MultiWOZ数据集包含多个领域(如酒店、餐厅、景点、出租车、火车等)的对话,覆盖了丰富的槽位信息。在构建过程中,研究者通过专业的翻译工具或人工审校将对话文本、槽位值及系统动作标签转化为西班牙语,同时保留了原始对话的结构、多轮交互逻辑以及任务型对话的完整性。数据集按照标准流程划分为训练集(56,668条)、开发集(7,374条)和测试集(7,368条),确保模型评估的公平性与可复现性。
特点
该数据集具有鲜明的多领域任务型对话特征,涵盖了酒店预订、餐厅预约、景点查询、出租车调度与火车票购买等常见生活场景。每个对话实例包含丰富的结构化槽位信息,如地点、时间、价格范围、人数、类型等,共计30余种槽位类型。数据以原始文本形式保留对话历史与当前轮次表述,有助于模型学习上下文依赖与对话状态追踪。此外,作为西班牙语版本,它填补了非英语语言在多轮任务型对话领域的空白,为跨语言对话系统的研究与开发提供了宝贵资源。
使用方法
数据集以HuggingFace Datasets格式发布,支持通过加载配置名"default"直接读取,并自动划分为train、dev和test三个子集。用户可使用Python的datasets库轻松加载,例如调用load_dataset("multiwoz_es")即可获取包含对话ID、对话历史、当前轮次文本及各类槽位字段的样本。在应用上,该数据集适用于训练西班牙语对话状态追踪(DST)、对话策略学习以及端到端任务型对话生成模型。研究人员可基于其丰富的槽位标注设计评估指标,如联合目标准确率(Joint Goal Accuracy)或槽位F1值,进行模型性能的对比与优化。
背景与挑战
背景概述
在对话系统研究领域,多轮任务型对话数据集是推动人机交互技术发展的关键资源。multiwoz_es作为MultiWOZ数据集的多语言扩展版本,专为西班牙语任务型对话建模而设计。该数据集由研究团队在2020年前后创建,旨在弥补非英语语种在任务型对话研究中的资源匮乏。核心研究问题聚焦于如何在不同语言环境下实现景点、酒店、餐厅、出租车和火车等多领域信息的自然交互与意图解析。该数据集包含约7万条对话样本,分为训练、验证和测试集,为跨语言对话系统提供了标准化基准,对推动多语种对话AI的公平性与包容性具有重要影响力。
当前挑战
首要挑战在于跨语言对话系统的领域泛化能力。西班牙语特有的词汇形态变化与句法结构使得意图识别和槽位填充任务更为复杂,例如动词变位和名词性别标记对实体识别的影响。构建过程中,数据翻译与标注一致性是重大难题。原始英语MultiWOZ数据需经专业翻译团队进行本土化转写,同时需保证多轮对话中语义连贯性与领域特定术语的准确映射。此外,对话状态追踪需处理西班牙语中频繁的代词省略和灵活语序,这对模型理解用户真实意图构成严峻考验。
常用场景
经典使用场景
多轮对话系统是自然语言处理领域的核心挑战之一,需要机器在连续的交流中精准把握用户意图并完成复杂任务。MultiWOZ_ES作为MultiWOZ数据集的多语言扩展版本,专注于西班牙语的对话理解与生成任务。该数据集最经典的使用场景在于评估和训练面向任务的对话系统,尤其是处理餐馆预约、酒店预订、景点查询等跨领域信息交互。研究者常以此数据集衡量模型在状态追踪、动作预测和响应生成等方面的性能,推动对话系统在非英语环境中的应用与优化。
实际应用
在实际应用层面,MultiWOZ_ES为西班牙语地区的智能客服、虚拟助手和旅游服务平台提供了关键的数据支撑。无论是餐饮预约、酒店入住还是出行规划,系统可以借助该数据集训练出能够理解自然语言、追踪对话状态并完成多步骤操作的高效模型。这直接提升了西班牙语用户在使用智能设备时的交互体验,使对话系统能够更精准地响应用户需求,减少沟通摩擦,从而加速AI服务在拉美及西班牙市场的落地与普及。
衍生相关工作
以MultiWOZ_ES为基础,学术界衍生出了一系列富有影响力的研究成果。研究者们相继提出了面向西班牙语的状态追踪模型、跨语言对话策略优化框架以及多领域知识迁移方法。这些工作不仅扩展了原有多语言对话系统的研究范式,还催生了诸如多语言领域泛化、低资源对话生成等新兴课题。此外,该数据集也常被作为基准,用于评估预训练语言模型在西班牙语对话任务上的表现,推动了对话AI技术的本土化与多元化演进。
以上内容由遇见数据集搜集并总结生成



