GEM/cs_restaurants

Hugging Face2022-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GEM/cs_restaurants

下载链接

链接失效反馈

官方服务：

资源简介：

捷克餐厅数据集是一个面向任务的对话数据集，旨在测试模型在捷克语这种形态丰富的语言中生成自然语言响应的能力。数据集最初是通过翻译一个英语数据集创建的，目的是测试自然语言生成系统在捷克语中的表现。数据集包含对话行为（dialogue acts）和对应的自然语言文本，数据格式为JSON或CSV，包含四个主要字段：`da`（输入的意义表示）、`delex_da`（去词汇化的意义表示）、`text`（目标自然语言文本）和`delex_text`（去词汇化的目标文本）。数据集还包含一个JSON文件，记录了所有可能的词形变化形式。数据集的主要任务是对话响应生成，旨在生成符合给定意图和属性的文本。

提供机构：

GEM

原始信息汇总

数据集概述

数据集基本信息

名称: cs_restaurants
语言: 捷克语 (Czech)
许可证: cc-by-sa-4.0: 创意共享署名相同方式共享4.0国际
任务类别: 对话响应生成
数据来源: 原始数据
数据结构: JSON或CSV格式，包含字段：da（对话行为），delex_da（去词汇化对话行为），text（目标自然语言文本），delex_text（去词汇化目标文本）

数据集详情

数据集描述

目的: 测试神经自然语言生成（NLG）系统在捷克语中的能力，特别是处理丰富形态的能力。
创建者: Ondrej Dusek 和 Filip Jurcicek
组织: 查尔斯大学，布拉格
资金支持: 由查尔斯大学项目PRIMUS/19/SCI/10和捷克共和国教育部、青年和体育部资助。

数据集结构

数据字段:
- da: 输入意义表示/对话行为（MR）
- delex_da: 输入MR，去词汇化
- text: 相应的目标自然语言文本（参考）
- delex_text: 目标文本，去词汇化
数据分割: 训练、开发和测试部分按大约3:1:1的比例分割。

数据集使用

主要任务: 对话响应生成
通信目标: 生成表达给定意图/对话行为的文本，并仅包含输入MR中指定的属性。
技术术语:
- 话语: 系统或用户在对话中可能说的话
- 意义表示: 系统应遵守的意义表示，本数据集中的特定类型是对话行为。

数据集在GEM中的应用

GEM中的修改: 是
GEM中的额外分割: 是
分割信息: 添加了5个挑战集，用于测试模型的泛化和鲁棒性。

数据集维护

维护计划: 无

社会影响

对服务不足社区的影响: 是
如何满足需求: 可能帮助改进除捷克语之外的形态丰富语言的NLG方法。
社会偏见: 存在，数据始终使用正式/礼貌的用户称呼，并使用女性形式的第一人称自我引用。

使用数据集的考虑

版权限制: 开放许可 - 允许商业使用
技术限制: 测试集可能导致用户高估性能。

5,000+

优质数据集

54 个

任务类型

进入经典数据集