SEACrowd/cod

Name: SEACrowd/cod
Creator: SEACrowd
Published: 2024-06-24 13:22:49
License: 暂无描述

Hugging Face2024-06-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/cod

下载链接

链接失效反馈

官方服务：

资源简介：

跨语言基于大纲的对话（COD）数据集由手动生成、本地化和跨语言对齐的任务导向对话（TOD）数据组成，用于对话提示的生成。该数据集支持自然语言理解、对话状态跟踪以及端到端对话建模和评估。数据集由Majewska等人（2022）通过一种新颖的基于大纲的注释管道创建，该管道将英语模式引导对话（SGD）数据集自动采样并映射到大纲中，然后由人类主体进行改写和本地化适配。数据集支持的语言为印尼语（ind），主要任务为对话系统。

The Cross-lingual Outline-based Dialogue (COD) dataset comprises manually generated, localized, and cross-lingually aligned task-oriented dialogue (TOD) data tailored for dialogue prompt generation. This dataset supports natural language understanding, dialogue state tracking, end-to-end dialogue modeling and corresponding evaluation. It was developed by Majewska et al. (2022) via a novel outline-based annotation pipeline, where the English Schema-Guided Dialogue (SGD) dataset is first automatically sampled and mapped into outlines, then revised and localized by human annotators. The dataset supports Indonesian (ind) as its target language, with its core application task focused on dialogue systems.

提供机构：

SEACrowd

原始信息汇总

数据集概述

名称

Cod

语言

印尼语（ind）

任务类别

对话系统（Dialogue System）

描述

Cross-lingual Outline-based Dialogue (COD) 是一个包含手动生成、本地化和跨语言对齐的任务导向对话（TOD）数据集。该数据集支持自然语言理解、对话状态跟踪和端到端对话建模及评估。Majewska 等人（2022）使用一种新颖的基于大纲的注释流程创建了该数据集。

支持的任务

对话系统

数据集版本

源版本：1.0.0
SEACrowd 版本：2024.06.20

数据集许可证

未知

引用

如果使用 Cod 数据集，请引用以下文献：

@article{majewska2022cross, title={Cross-lingual dialogue dataset creation via outline-based generation}, author={Majewska, Olga and Razumovskaia, Evgeniia and Ponti, Edoardo Maria and Vuli{c}, Ivan and Korhonen, Anna}, journal={arXiv preprint arXiv:2201.13405}, year={2022} }

搜集汇总

数据集介绍

构建方式

COD数据集通过一种新颖的基于大纲的注释流程构建，该流程专门用于多语言任务导向对话（TOD）。Majewska等人（2022）首先从英语Schema-Guided Dialogue（SGD）数据集中自动采样并映射为大纲，随后由人工参与者对这些大纲进行改写和本地化，以适应目标领域的语言和文化背景。这一过程确保了数据集的跨语言对齐和本地化适应性，从而支持自然语言理解、对话状态跟踪和端到端对话建模与评估。

特点

COD数据集的主要特点在于其跨语言和本地化的对齐能力，这使得它能够有效支持多语言环境下的对话系统开发。数据集中的对话内容经过精心设计，涵盖了多种语言和文化背景，确保了对话系统的广泛适用性。此外，COD数据集还提供了丰富的对话状态和行为标注，为对话系统的训练和评估提供了坚实的基础。

使用方法

使用COD数据集可以通过`datasets`库或`seacrowd`库进行加载。通过`datasets`库，用户可以简单地调用`load_dataset`函数并指定数据集名称来加载数据。而通过`seacrowd`库，用户不仅可以加载默认配置的数据集，还可以根据需要选择特定的子集（配置名称）进行加载。详细的加载方法和配置选项可以在SEACrowd的官方文档中找到。

背景与挑战

背景概述

跨语言基于大纲的对话数据集（COD）是由Majewska等人于2022年创建的，旨在支持多语言任务导向对话（TOD）的自然语言理解、对话状态跟踪和端到端对话建模与评估。该数据集通过新颖的大纲注释流程生成，将英语的Schema-Guided Dialogue（SGD）数据集自动采样并映射为大纲，随后由人工进行本地化改编。COD数据集的开发不仅推动了多语言对话系统的研究，还为跨语言对话建模提供了宝贵的资源，对相关领域的研究具有重要影响。

当前挑战

COD数据集在构建过程中面临多项挑战。首先，跨语言对话数据的生成需要克服语言和文化差异，确保对话内容在不同语言环境下的自然性和适用性。其次，大纲注释流程的复杂性要求研究人员设计高效的自动化工具和严格的人工校验机制，以保证数据质量。此外，数据集的本地化改编过程依赖于大量的人工参与，如何提高这一过程的效率和一致性也是一个重要挑战。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

COD数据集在跨语言任务导向对话系统中展现了其经典应用场景。通过提供多语言对齐的对话数据，该数据集支持自然语言理解、对话状态跟踪以及端到端对话建模与评估。研究者可以利用COD进行跨语言对话系统的开发与优化，特别是在需要处理不同语言和文化背景的对话场景中，如多语言客服系统或跨文化交流平台。

实际应用

在实际应用中，COD数据集被广泛用于开发和优化多语言对话系统，如智能客服、语音助手和跨文化交流工具。这些系统能够处理不同语言和文化背景的用户需求，提供更加个性化和高效的服务。例如，在跨国企业中，COD支持的对话系统可以无缝处理来自不同国家的客户咨询，提升用户体验和业务效率。

衍生相关工作

基于COD数据集，研究者们开展了多项相关工作，包括跨语言对话系统的模型优化、多语言对话状态跟踪的算法改进以及端到端对话生成模型的开发。这些工作不仅提升了对话系统的性能，还为多语言自然语言处理领域提供了新的研究方向和方法论。例如，Majewska等人的研究进一步验证了基于大纲的生成方法在多语言对话数据集创建中的有效性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集