cs_restaurant_dataset

github2023-04-15 更新2024-05-31 收录

下载链接：

https://github.com/UFAL-DSG/cs_restaurant_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于任务导向型口语对话系统中自然语言生成（NLG）的捷克语数据集。该数据集起源于对Wen等人（2015年）的英文旧金山餐厅数据集的翻译。数据集包含输入对话行为和相应的捷克语输出自然语言释义。由于数据集旨在用于基于循环神经网络（RNN）的NLG系统，因此提供了所有在文本中直接出现的槽值的屈折变化表。

This is a Czech language dataset designed for natural language generation (NLG) in task-oriented spoken dialogue systems. The dataset originates from a translation of the English San Francisco restaurant dataset by Wen et al. (2015). It includes input dialogue acts and corresponding Czech natural language paraphrases. As the dataset is intended for use in NLG systems based on recurrent neural networks (RNNs), it provides inflection tables for all slot values that appear directly in the text.

创建时间：

2016-10-14

原始信息汇总

数据集概述

数据集名称

Czech restaurant information dataset for NLG

作者

Ondřej Dušek, Filip Jurčíček, Josef Dvořák, Petra Grycová, Matěj Hejda, Jana Olivová, Michal Starý, Eva Štichová

许可证

Creative Commons 4.0 BY-SA

数据集内容

语言: 捷克语
目的: 用于任务导向的口语对话系统中的自然语言生成（NLG）
数据类型: 输入对话行为和对应的输出自然语言释义
特点: 包含所有在文本中直接出现的槽位值的屈折变化表，适用于基于RNN的NLG系统使用去词汇化处理

数据集创建步骤

去重相同句子（忽略不同槽位DA值）
本地化餐厅和邻域名称至布拉格（数据随机，不代表任何真实餐厅数据库）
将数据翻译成捷克语
自动检查槽位值的存在
通过重新词汇化扩展翻译数据并进行手动检查

数据集格式

文件格式: CSV和JSON
编码: UTF-8
实例总数: 5192
实例属性: da, delex_da, text, delex_text
数据集分割: 训练集3569个实例，开发集781个实例，测试集842个实例

附加形态学数据

文件: surface_forms.json
内容: 包含所有数据集中槽位值的形态变化形式
结构: 槽位 -> 值 -> 表面形式（词干 - 形式 - 标签）

领域

主题: 布拉格餐厅信息
功能: 用户可请求特定餐厅信息，系统可请求澄清或确认

对话行为格式

类型: 包括inform, confirm, request等
槽位: 包括name, price_range, food等

评估工具

脚本: measure_slot_error_rate.py
功能: 计算槽位错误率（SER），通过比较输入对话行为中的槽位值与对话系统输出

使用方法

命令: python measure_slot_error_rate.py --sys_file output.txt surface_forms.json test.csv
详细信息: 通过添加-h参数获取

致谢

资助: 捷克共和国教育、青年和体育部
资源: LINDAT/CLARIN项目

搜集汇总

数据集介绍

构建方式

该数据集源自对Wen等人（2015）提出的英文旧金山餐厅数据集的翻译与本地化处理。构建过程中，首先对重复句子进行去重处理，忽略不同槽位值的差异。随后，将餐厅和区域名称本地化为布拉格地区的虚构名称，确保这些名称在捷克语中能够正确屈折变化。接着，将数据翻译为捷克语，并通过自动检查确保槽位值的完整性。最后，通过重新词汇化扩展数据规模，并进行人工校对，确保数据的准确性和一致性。

特点

该数据集专为面向任务的捷克语自然语言生成系统设计，包含输入对话行为及其对应的捷克语自然语言表达。数据集采用去词汇化处理，适用于基于RNN的自然语言生成模型。此外，数据集还提供了所有槽位值的屈折变化表，支持捷克语的形态学处理。数据格式包括CSV和JSON两种，便于不同场景下的使用。数据集共包含5192个实例，分为训练集、开发集和测试集，确保模型能够泛化到未见过的对话行为。

使用方法

该数据集的使用方法主要围绕自然语言生成系统的训练与评估展开。用户可以通过加载CSV或JSON格式的数据文件，获取输入对话行为及其对应的自然语言表达。数据集支持去词汇化处理，便于模型生成多样化的输出。此外，用户可以利用提供的屈折变化表，处理捷克语的形态学特征。对于系统输出的评估，数据集附带的脚本`measure_slot_error_rate.py`可用于计算槽位错误率，帮助用户分析生成结果的准确性。通过调整脚本的详细输出级别，用户可以进一步排查错误来源。

背景与挑战

背景概述

cs_restaurant_dataset是由Ondřej Dušek、Filip Jurčíček等研究人员于2019年创建的，旨在为捷克语任务导向型对话系统中的自然语言生成（NLG）提供数据支持。该数据集基于Wen等人（2015）的英文旧金山餐厅数据集，经过翻译和本地化处理，生成了包含输入对话行为及其对应捷克语自然语言释义的数据。数据集的核心研究问题在于如何通过去词汇化和形态变化表等技术，提升基于循环神经网络（RNN）的NLG系统在捷克语环境下的表现。该数据集为捷克语NLG研究提供了重要的基础资源，推动了相关领域的发展。

当前挑战

cs_restaurant_dataset的构建面临多重挑战。首先，数据集的翻译和本地化过程需要确保捷克语的自然性和准确性，尤其是在处理餐厅名称和区域名称时，需考虑捷克语的形态变化规则。其次，去词汇化技术的应用要求对数据集中的槽位值进行精确处理，以确保生成模型的泛化能力。此外，数据集的扩展和手动检查过程耗时且复杂，需平衡数据规模与质量。在应用层面，该数据集旨在解决捷克语NLG系统的生成问题，但如何在高形态变化的语言环境中实现高质量的生成仍是一个重要挑战。

常用场景

经典使用场景

在自然语言生成（NLG）领域，cs_restaurant_dataset 数据集被广泛应用于任务导向的对话系统中，尤其是针对捷克语的目标语言生成。该数据集通过提供输入对话行为及其对应的捷克语自然语言表达，为基于循环神经网络（RNN）的NLG系统提供了丰富的训练和测试资源。其经典使用场景包括生成餐厅推荐、用户查询响应以及对话系统的多轮交互。

衍生相关工作

cs_restaurant_dataset 的发布催生了一系列相关研究工作。例如，基于该数据集的神经生成模型研究为捷克语NLG任务提供了基线模型和评估方法。此外，数据集的对话行为格式和槽位错误率评估脚本也被广泛应用于其他语言和领域的对话系统研究中。一些研究还利用该数据集的去词汇化技术，探索了多语言对话系统中的跨语言生成问题，进一步推动了自然语言生成技术的发展。

数据集最近研究