five

community-datasets/cs_restaurants

收藏
Hugging Face2024-06-24 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/cs_restaurants
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于任务导向的捷克语对话系统的自然语言生成(NLG)数据集。它源自对英文San Francisco餐厅数据集的翻译,并针对布拉格的餐厅信息进行了本地化处理。数据集包含输入对话行为及其对应的捷克语输出。数据集的结构包括训练集、验证集和测试集,分别包含3569、781和842个实例。数据集的创建目的是为了测试神经NLG系统在多语言生成中的能力,特别是针对捷克语这种形态复杂的语言。
提供机构:
community-datasets
原始信息汇总

数据集概述

数据集描述

数据集摘要

这是一个面向任务的口语对话系统中的自然语言生成(NLG)数据集,以捷克语为目标语言。该数据集源自英语旧金山餐厅数据集的翻译,由Wen等人(2015)创建。数据集的领域是布拉格的餐厅信息,包含随机/虚构的值。它包括输入对话行为和相应的捷克语输出。

支持的任务和排行榜

  • other-intent-to-text:该数据集可用于训练数据到文本生成模型:从期望的对话行为中,模型必须生成传达该意图的文本输出。

语言

整个数据集为捷克语,由专业翻译人员从英语旧金山数据集翻译而来。

数据集结构

数据实例

数据实例示例:

json { "da": "?request(area)", "delex_da": "?request(area)", "text": "Jakou lokalitu hledáte ?", "delex_text": "Jakou lokalitu hledáte ?" }

数据字段

  • da:输入对话行为
  • delex_da:去词汇化的输入对话行为
  • text:输出文本
  • delex_text:去词汇化的输出文本

数据分割

数据集分为训练集、验证集和测试集,比例大致为3:1:1。确保不同部分不共享相同的对话行为(DA),但尽可能多地共享通用不同的DA类型。DA类型中只有一个对应DA的(例如,bye())包含在训练集中。

训练集、验证集和测试集分别包含3569、781和842个实例。

数据集创建

策划理由

当前大多数神经NLG系统不包含特定语言的组件,因此原则上能够进行多语言生成,但很少有实验测试这些能力。非英语训练数据集的稀缺性是一个问题,已知的唯一数据到文本NLG数据集是一个小型韩国体育广播数据集,仅包含有限数量的命名实体,减少了对其屈折的需求。大多数生成器仅在英语上进行测试,不需要处理英语中不存在的语法复杂性。我们创建了一个新的捷克语去词汇化生成数据集,扩展了典型的数据到文本NLG任务,要求属性值屈折。我们选择捷克语作为具有大量可用NLP工具的形态复杂语言的示例。

源数据

初始数据收集和规范化

原始数据来自英语旧金山餐厅数据集,由Wen等人(2015)创建。

源语言生产者

原始数据由亚马逊Mechanical Turk工作者在旧金山餐厅主题的交互中产生。这些数据随后由专业翻译人员翻译成捷克语并本地化为布拉格餐厅。

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

该数据不包含个人信息。

使用数据的考虑

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

Ondřej Dušek, Filip Jurčíček, Josef Dvořák, Petra Grycová, Matěj Hejda, Jana Olivová, Michal Starý, Eva Štichová,查尔斯大学。该项目由捷克共和国教育和青年体育部资助,核心研究资金,SVV项目260 333,查尔斯大学G

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作