community-datasets/cs_restaurants
收藏数据集概述
数据集描述
数据集摘要
这是一个面向任务的口语对话系统中的自然语言生成(NLG)数据集,以捷克语为目标语言。该数据集源自英语旧金山餐厅数据集的翻译,由Wen等人(2015)创建。数据集的领域是布拉格的餐厅信息,包含随机/虚构的值。它包括输入对话行为和相应的捷克语输出。
支持的任务和排行榜
other-intent-to-text:该数据集可用于训练数据到文本生成模型:从期望的对话行为中,模型必须生成传达该意图的文本输出。
语言
整个数据集为捷克语,由专业翻译人员从英语旧金山数据集翻译而来。
数据集结构
数据实例
数据实例示例:
json { "da": "?request(area)", "delex_da": "?request(area)", "text": "Jakou lokalitu hledáte ?", "delex_text": "Jakou lokalitu hledáte ?" }
数据字段
da:输入对话行为delex_da:去词汇化的输入对话行为text:输出文本delex_text:去词汇化的输出文本
数据分割
数据集分为训练集、验证集和测试集,比例大致为3:1:1。确保不同部分不共享相同的对话行为(DA),但尽可能多地共享通用不同的DA类型。DA类型中只有一个对应DA的(例如,bye())包含在训练集中。
训练集、验证集和测试集分别包含3569、781和842个实例。
数据集创建
策划理由
当前大多数神经NLG系统不包含特定语言的组件,因此原则上能够进行多语言生成,但很少有实验测试这些能力。非英语训练数据集的稀缺性是一个问题,已知的唯一数据到文本NLG数据集是一个小型韩国体育广播数据集,仅包含有限数量的命名实体,减少了对其屈折的需求。大多数生成器仅在英语上进行测试,不需要处理英语中不存在的语法复杂性。我们创建了一个新的捷克语去词汇化生成数据集,扩展了典型的数据到文本NLG任务,要求属性值屈折。我们选择捷克语作为具有大量可用NLP工具的形态复杂语言的示例。
源数据
初始数据收集和规范化
原始数据来自英语旧金山餐厅数据集,由Wen等人(2015)创建。
源语言生产者
原始数据由亚马逊Mechanical Turk工作者在旧金山餐厅主题的交互中产生。这些数据随后由专业翻译人员翻译成捷克语并本地化为布拉格餐厅。
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
该数据不包含个人信息。
使用数据的考虑
数据集的社会影响
[更多信息需补充]
偏见讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
Ondřej Dušek, Filip Jurčíček, Josef Dvořák, Petra Grycová, Matěj Hejda, Jana Olivová, Michal Starý, Eva Štichová,查尔斯大学。该项目由捷克共和国教育和青年体育部资助,核心研究资金,SVV项目260 333,查尔斯大学G



