five

Orange/rdfdial

收藏
Hugging Face2024-03-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Orange/rdfdial
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了以RDF形式注释的对话行为和对话状态的对话数据。数据集包括`sfxdial`、`dstc2`和`multiwoz2.3`数据集的转换版本,以及两个完全合成的数据集`camrest-sim`和`multiwoz-sim`,这些数据集是通过模拟对话创建的。数据集的创建目的是为了使用基于图的对话状态表示与生成模型(如T5系列)一起工作。

该数据集提供了以RDF形式注释的对话行为和对话状态的对话数据。数据集包括`sfxdial`、`dstc2`和`multiwoz2.3`数据集的转换版本,以及两个完全合成的数据集`camrest-sim`和`multiwoz-sim`,这些数据集是通过模拟对话创建的。数据集的创建目的是为了使用基于图的对话状态表示与生成模型(如T5系列)一起工作。
提供机构:
Orange
原始信息汇总

数据集概述

数据集名称

  • rdfdial

数据集配置

  • bundle-converted

    • 描述: 所有rdf转换数据集的合并
    • 数据文件:
      • 训练集: ["dstc2-rdf/train.jsonl","multiwoz-rdf/train.jsonl","sfxdial-rdf/train.jsonl"]
      • 测试集: ["dstc2-rdf/test.jsonl","multiwoz-rdf/test.jsonl","sfxdial-rdf/test.jsonl"]
      • 验证集: ["dstc2-rdf/validation.jsonl","multiwoz-rdf/validation.jsonl","sfxdial-rdf/validation.jsonl"]
  • bundle-simulated

    • 描述: 所有rdf模拟数据集的合并
    • 数据文件:
      • 训练集: ["camrest-sim-rdf/train.jsonl","multiwoz-sim-rdf/train.jsonl"]
      • 测试集: ["camrest-sim-rdf/test.jsonl","camrest-sim-rdf/test.jsonl"]
      • 验证集: ["camrest-sim-rdf/validation.jsonl","multiwoz-sim-rdf/validation.jsonl"]
  • dstc2

    • 描述: DSTC2转换为rdf格式
    • 数据文件:
      • 训练集: "dstc2-rdf/train.jsonl"
      • 测试集: "dstc2-rdf/test.jsonl"
      • 验证集: "dstc2-rdf/validation.jsonl"
  • sfxdial

    • 描述: Sfxdial转换为rdf格式
    • 数据文件:
      • 训练集: "sfxdial-rdf/train.jsonl"
      • 测试集: "sfxdial-rdf/test.jsonl"
      • 验证集: "sfxdial-rdf/validation.jsonl"
  • multiwoz

    • 描述: MultiWoz转换为rdf格式
    • 数据文件:
      • 训练集: "multiwoz-rdf/train.jsonl"
      • 测试集: "multiwoz-rdf/test.jsonl"
      • 验证集: "multiwoz-rdf/validation.jsonl"
  • camrest-sim

    • 描述: 剑桥餐厅搜索领域的合成对话
    • 数据文件:
      • 训练集: "camrest-sim-rdf/train.jsonl"
      • 测试集: "camrest-sim-rdf/test.jsonl"
      • 验证集: "camrest-sim-rdf/validation.jsonl"
  • multiwoz-sim

    • 描述: Multiwoz领域的合成对话
    • 数据文件:
      • 训练集: "multiwoz-sim-rdf/train.jsonl"
      • 测试集: "multiwoz-sim-rdf/test.jsonl"
      • 验证集: "multiwoz-sim-rdf/validation.jsonl"

数据集结构

  • 数据实例
    • 每个数据实例包含对话ID、对话轮次和对话状态。
    • 对话轮次包含轮次ID、说话者、文本和rdf形式的对话行为。
    • 对话状态包含状态ID、是否允许多个关系实例、三元组和贡献到该状态的轮次ID。

数据字段

  • 对话ID: 唯一对话标识符
  • 轮次: 对话中的轮次列表,每个轮次包含轮次ID、说话者标识符、文本和对话行为列表。
  • 状态: 对话中的状态列表,每个状态包含状态ID、是否允许多个关系实例、三元组列表和贡献到该状态的轮次ID列表。

数据分割

  • 训练集: 80%
  • 验证集: 16%
  • 测试集: 4%

数据集创建

  • 来源数据
    • 转换数据集: DSTC2, Multiwoz 2.3, SfxDial
    • 合成数据集: camrest-sim, multiwoz-sim
  • 注释过程
    • 转换数据集: 规则基础转换对话行为和对话状态
    • 合成数据集: 对话模拟和自然语言生成

许可证信息

  • 转换数据集:
    • DSTC2: GPL 3.0
    • Multiwoz 2.3: Apache 2.0
    • SfxDial: Attribution 2.0 UK: England & Wales
  • 合成数据集:
    • camrest-sim: CC BY-NC-SA 4.0
    • multiwoz-sim: CC BY-NC-SA 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作