Orange/rdfdial
收藏Hugging Face2024-03-22 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/Orange/rdfdial
下载链接
链接失效反馈官方服务:
资源简介:
该数据集提供了以RDF形式注释的对话行为和对话状态的对话数据。数据集包括`sfxdial`、`dstc2`和`multiwoz2.3`数据集的转换版本,以及两个完全合成的数据集`camrest-sim`和`multiwoz-sim`,这些数据集是通过模拟对话创建的。数据集的创建目的是为了使用基于图的对话状态表示与生成模型(如T5系列)一起工作。
该数据集提供了以RDF形式注释的对话行为和对话状态的对话数据。数据集包括`sfxdial`、`dstc2`和`multiwoz2.3`数据集的转换版本,以及两个完全合成的数据集`camrest-sim`和`multiwoz-sim`,这些数据集是通过模拟对话创建的。数据集的创建目的是为了使用基于图的对话状态表示与生成模型(如T5系列)一起工作。
提供机构:
Orange
原始信息汇总
数据集概述
数据集名称
- rdfdial
数据集配置
-
bundle-converted
- 描述: 所有rdf转换数据集的合并
- 数据文件:
- 训练集: ["dstc2-rdf/train.jsonl","multiwoz-rdf/train.jsonl","sfxdial-rdf/train.jsonl"]
- 测试集: ["dstc2-rdf/test.jsonl","multiwoz-rdf/test.jsonl","sfxdial-rdf/test.jsonl"]
- 验证集: ["dstc2-rdf/validation.jsonl","multiwoz-rdf/validation.jsonl","sfxdial-rdf/validation.jsonl"]
-
bundle-simulated
- 描述: 所有rdf模拟数据集的合并
- 数据文件:
- 训练集: ["camrest-sim-rdf/train.jsonl","multiwoz-sim-rdf/train.jsonl"]
- 测试集: ["camrest-sim-rdf/test.jsonl","camrest-sim-rdf/test.jsonl"]
- 验证集: ["camrest-sim-rdf/validation.jsonl","multiwoz-sim-rdf/validation.jsonl"]
-
dstc2
- 描述: DSTC2转换为rdf格式
- 数据文件:
- 训练集: "dstc2-rdf/train.jsonl"
- 测试集: "dstc2-rdf/test.jsonl"
- 验证集: "dstc2-rdf/validation.jsonl"
-
sfxdial
- 描述: Sfxdial转换为rdf格式
- 数据文件:
- 训练集: "sfxdial-rdf/train.jsonl"
- 测试集: "sfxdial-rdf/test.jsonl"
- 验证集: "sfxdial-rdf/validation.jsonl"
-
multiwoz
- 描述: MultiWoz转换为rdf格式
- 数据文件:
- 训练集: "multiwoz-rdf/train.jsonl"
- 测试集: "multiwoz-rdf/test.jsonl"
- 验证集: "multiwoz-rdf/validation.jsonl"
-
camrest-sim
- 描述: 剑桥餐厅搜索领域的合成对话
- 数据文件:
- 训练集: "camrest-sim-rdf/train.jsonl"
- 测试集: "camrest-sim-rdf/test.jsonl"
- 验证集: "camrest-sim-rdf/validation.jsonl"
-
multiwoz-sim
- 描述: Multiwoz领域的合成对话
- 数据文件:
- 训练集: "multiwoz-sim-rdf/train.jsonl"
- 测试集: "multiwoz-sim-rdf/test.jsonl"
- 验证集: "multiwoz-sim-rdf/validation.jsonl"
数据集结构
- 数据实例
- 每个数据实例包含对话ID、对话轮次和对话状态。
- 对话轮次包含轮次ID、说话者、文本和rdf形式的对话行为。
- 对话状态包含状态ID、是否允许多个关系实例、三元组和贡献到该状态的轮次ID。
数据字段
- 对话ID: 唯一对话标识符
- 轮次: 对话中的轮次列表,每个轮次包含轮次ID、说话者标识符、文本和对话行为列表。
- 状态: 对话中的状态列表,每个状态包含状态ID、是否允许多个关系实例、三元组列表和贡献到该状态的轮次ID列表。
数据分割
- 训练集: 80%
- 验证集: 16%
- 测试集: 4%
数据集创建
- 来源数据
- 转换数据集: DSTC2, Multiwoz 2.3, SfxDial
- 合成数据集: camrest-sim, multiwoz-sim
- 注释过程
- 转换数据集: 规则基础转换对话行为和对话状态
- 合成数据集: 对话模拟和自然语言生成
许可证信息
- 转换数据集:
- DSTC2: GPL 3.0
- Multiwoz 2.3: Apache 2.0
- SfxDial: Attribution 2.0 UK: England & Wales
- 合成数据集:
- camrest-sim: CC BY-NC-SA 4.0
- multiwoz-sim: CC BY-NC-SA 4.0



