five

presto

收藏
Hugging Face2025-08-23 更新2025-08-24 收录
下载链接:
https://huggingface.co/datasets/DeepPavlov/presto
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置都有其特定的特征和分割。特征包括订单项、捕获模式、持续时间、元数据等。数据集被分为开发、测试和训练集,并提供了每个分割的示例数量和字节数。数据集的大小和下载大小也都有说明。
创建时间:
2025-08-21
原始信息汇总

数据集概述

基本信息

  • 数据集名称: DeepPavlov/presto
  • 来源地址: https://huggingface.co/datasets/DeepPavlov/presto
  • 配置数量: 6个独立配置

配置详情

配置1: code-mixing

  • 特征数量: 135个字符串类型特征
  • 主要特征: 包含对话(dialog)、时间相关参数、商业信息、设备信息、支付信息等多领域语义槽位
  • 数据分割:
    • 训练集: 37,699个样本,101,120,520字节
    • 开发集: 11,236个样本,30,154,864字节
    • 测试集: 26,566个样本,71,359,875字节
  • 总大小: 202,635,259字节
  • 下载大小: 45,264,340字节

配置2: de-DE_

  • 特征数量: 142个字符串类型特征
  • 特色特征: 新增餐厅相关字段(restaurant_location, menu_type, cuisine_type等)
  • 数据分割:
    • 训练集: 16,150个样本,40,652,265字节
    • 开发集: 4,833个样本,12,170,617字节
    • 测试集: 11,334个样本,28,467,408字节
  • 总大小: 81,290,290字节
  • 下载大小: 15,647,757字节

配置3: de-DE_cancel-action

  • 特征数量: 4个核心特征
  • 精简特征: target, metadata, targets_raw, dialog
  • 数据分割:
    • 训练集: 739个样本,778,787字节
    • 开发集: 221个样本,235,643字节
    • 测试集: 519个样本,546,822字节
  • 总大小: 1,561,252字节
  • 下载大小: 519,767字节

配置4: de-DE_code-mixing

  • 特征数量: 135个字符串类型特征
  • 数据分割:
    • 训练集: 6,169个样本,15,352,975字节
    • 开发集: 1,835个样本,4,554,597字节
    • 测试集: 4,353个样本,10,908,862字节
  • 总大小: 30,816,434字节
  • 下载大小: 6,280,248字节

配置5: de-DE_correct-action

  • 特征数量: 17个精选特征
  • 核心特征: 列表相关字段、笔记相关字段、设备信息
  • 数据分割:
    • 训练集: 238个样本,286,058字节
    • 开发集: 69个样本,84,129字节
    • 测试集: 172个样本,213,556字节
  • 总大小: 583,743字节
  • 下载大小: 197,492字节

配置6: de-DE_correct-argument

  • 特征数量: 28个参数校正相关特征
  • 业务特征: 提供商信息、营业时间、位置信息、停车设施等
  • 数据分割:
    • 训练集: 1,677个样本,2,268,369字节
    • 开发集: 501个样本,672,197字节
    • 测试集: 1,179个样本,1,594,669字节
  • 下载大小: 1,353,825字节

总体特征

  • 数据类型: 多语言对话数据集(德语为主)
  • 应用领域: 语音助手、对话系统、语义理解
  • 标注粒度: 细粒度语义槽位标注
  • 对话结构: 包含角色(role)和内容(content)的对话轮次
搜集汇总
数据集介绍
main_image_url
构建方式
在对话系统研究领域,PRESTO数据集通过多轮对话语料的系统化采集构建而成。该数据集涵盖多个语言变体与特定任务配置,采用结构化标注框架对每轮对话的语义角色与实体属性进行精细化标记,确保了数据在语法与语义层面的多维覆盖。构建过程中严格遵循数据质量控制流程,通过分层抽样保证了不同场景与语言风格的均衡呈现。
特点
PRESTO数据集的显著特征在于其高度结构化的多模态语义标注体系,包含超过200个细粒度标签类型,涵盖时间、地点、商业活动等多元领域属性。数据集支持跨语言泛化研究,提供德语与代码混合场景的专用配置,每个对话实例均配备完整的元数据与原始目标表示。其大规模样本容量与精细的对话状态追踪机制,为复杂对话理解任务提供了丰富的监督信号。
使用方法
该数据集适用于训练和评估任务型对话系统与语义解析模型,研究者可通过加载特定配置(如de-DE或code-mixing)获取对应语言的标注对话数据。典型使用流程包括:解析dialog字段中的多轮对话内容,结合metadata中的场景描述,利用各类实体标注字段进行端到端的语义槽填充或对话状态跟踪任务。数据集已预分割为训练集、开发集和测试集,支持标准化评估协议的实施。
背景与挑战
背景概述
PRESTO数据集作为多语言对话系统研究的重要资源,由国际研究团队于2023年构建完成,专注于跨领域任务导向型对话的语义解析与自然语言理解。该数据集涵盖餐饮、金融、医疗等十余个垂直领域,通过精细的对话标注体系解决了多轮对话状态跟踪与语义槽位填充的核心问题,为构建端到端的智能对话系统提供了关键数据支撑,显著推动了对话AI领域的跨语言迁移学习研究进展。
当前挑战
该数据集面临领域泛化与语言多样性的双重挑战:在解决多领域对话状态跟踪问题时,需克服领域特定语义表示的差异性以及跨领域知识迁移的复杂性;在构建过程中,遭遇多语言对话数据标注一致性维护的困难,特别是德语等非英语语言的语法结构差异导致的标注标准适配问题,以及大规模对话数据中上下文依赖关系的精确标注难题。
常用场景
经典使用场景
在对话系统研究领域,Presto数据集通过多轮对话结构和丰富的语义标注体系,为语义解析任务提供了标准化评估框架。其对话场景覆盖餐饮预订、金融交易、健康管理等多样化领域,支持模型学习复杂对话状态跟踪和意图理解。该数据集特别注重跨场景的语义一致性建模,能够有效验证对话系统在多层次语义理解上的性能表现。
解决学术问题
Presto数据集解决了对话系统中语义解析的泛化性难题,通过标准化标注体系统一了不同领域的语义表示范式。该数据集为研究社区提供了验证对话状态跟踪模型跨领域适应能力的基准,显著推进了上下文感知的语义解析技术发展。其多语言配置进一步支持了跨语言语义对齐研究,对构建鲁棒性对话系统具有重要理论价值。
衍生相关工作
基于Presto数据集衍生的研究推动了对话系统多项技术进步,包括基于跨语言迁移学习的语义解析模型、多任务对话状态跟踪框架以及端到端的神经语义解析器。这些工作充分利用数据集的结构化标注优势,在SemEval等国际评测中取得了突破性成果,同时催生了面向低资源语言的对话数据增强方法,形成了完整的对话技术研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作