community-datasets/cs_restaurants

Name: community-datasets/cs_restaurants
Creator: community-datasets
Published: 2024-06-24 11:24:22
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/cs_restaurants

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于任务导向的捷克语对话系统的自然语言生成（NLG）数据集。它源自对英文San Francisco餐厅数据集的翻译，并针对布拉格的餐厅信息进行了本地化处理。数据集包含输入对话行为及其对应的捷克语输出。数据集的结构包括训练集、验证集和测试集，分别包含3569、781和842个实例。数据集的创建目的是为了测试神经NLG系统在多语言生成中的能力，特别是针对捷克语这种形态复杂的语言。

提供机构：

community-datasets

原始信息汇总

数据集概述

数据集描述

数据集摘要

这是一个面向任务的口语对话系统中的自然语言生成（NLG）数据集，以捷克语为目标语言。该数据集源自英语旧金山餐厅数据集的翻译，由Wen等人（2015）创建。数据集的领域是布拉格的餐厅信息，包含随机/虚构的值。它包括输入对话行为和相应的捷克语输出。

支持的任务和排行榜

other-intent-to-text：该数据集可用于训练数据到文本生成模型：从期望的对话行为中，模型必须生成传达该意图的文本输出。

语言

整个数据集为捷克语，由专业翻译人员从英语旧金山数据集翻译而来。

数据集结构

数据实例

数据实例示例：

json { "da": "?request(area)", "delex_da": "?request(area)", "text": "Jakou lokalitu hledáte ?", "delex_text": "Jakou lokalitu hledáte ?" }

数据字段

da：输入对话行为
delex_da：去词汇化的输入对话行为
text：输出文本
delex_text：去词汇化的输出文本

数据分割

数据集分为训练集、验证集和测试集，比例大致为3:1:1。确保不同部分不共享相同的对话行为（DA），但尽可能多地共享通用不同的DA类型。DA类型中只有一个对应DA的（例如，bye()）包含在训练集中。

训练集、验证集和测试集分别包含3569、781和842个实例。

数据集创建

策划理由

当前大多数神经NLG系统不包含特定语言的组件，因此原则上能够进行多语言生成，但很少有实验测试这些能力。非英语训练数据集的稀缺性是一个问题，已知的唯一数据到文本NLG数据集是一个小型韩国体育广播数据集，仅包含有限数量的命名实体，减少了对其屈折的需求。大多数生成器仅在英语上进行测试，不需要处理英语中不存在的语法复杂性。我们创建了一个新的捷克语去词汇化生成数据集，扩展了典型的数据到文本NLG任务，要求属性值屈折。我们选择捷克语作为具有大量可用NLP工具的形态复杂语言的示例。

源数据

初始数据收集和规范化

原始数据来自英语旧金山餐厅数据集，由Wen等人（2015）创建。

源语言生产者

原始数据由亚马逊Mechanical Turk工作者在旧金山餐厅主题的交互中产生。这些数据随后由专业翻译人员翻译成捷克语并本地化为布拉格餐厅。

注释

注释过程

[更多信息需补充]

注释者

[更多信息需补充]

个人和敏感信息

该数据不包含个人信息。

使用数据的考虑

数据集的社会影响

[更多信息需补充]

偏见讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

Ondřej Dušek, Filip Jurčíček, Josef Dvořák, Petra Grycová, Matěj Hejda, Jana Olivová, Michal Starý, Eva Štichová，查尔斯大学。该项目由捷克共和国教育和青年体育部资助，核心研究资金，SVV项目260 333，查尔斯大学G

5,000+

优质数据集

54 个

任务类型

进入经典数据集