CLSE

arXiv2023-08-30 更新2024-07-24 收录

下载链接：

https://github.com/google-research-datasets/clse

下载链接

链接失效反馈

官方服务：

资源简介：

CLSE数据集是由谷歌创建的，旨在支持自然语言生成（NLG）系统的开发和评估。该数据集包含34种语言和74种不同的语义类型，覆盖从航空订票到视频游戏等多种应用。数据集通过专家语言学家的标注，确保了语言属性的准确性和多样性。CLSE数据集特别适用于测试NLG系统的语言鲁棒性，帮助解决在处理命名实体时常见的语法错误问题。

The CLSE dataset was created by Google to support the development and evaluation of natural language generation (NLG) systems. It covers 34 languages and 74 distinct semantic types, spanning a wide range of applications from air travel booking to video games. The dataset is annotated by professional linguists to ensure the accuracy and diversity of its linguistic attributes. The CLSE dataset is particularly suitable for testing the linguistic robustness of NLG systems, and helps resolve common grammatical errors that occur when handling named entities.

提供机构：

谷歌

创建时间：

2022-11-04

原始信息汇总

CLSE: Corpus of Linguistically Significant Entities

描述

CLSE（语言学重要实体语料库）是一个由语言学专家注释的命名实体数据集。该数据集包含34种语言，涵盖74种不同的语义类型，支持从航空订票到视频游戏等多种应用。该语料库的目的是促进创建更多语言多样性的自然语言生成（NLG）数据集。

许可证

本仓库的内容根据CC-BY许可证进行许可。

论文

在使用此数据集时，请引用以下论文：

@inproceedings{clse2022, title={CLSE: Corpus of Linguistically Significant Entities}, author={Chuklin, Aleksandr and Zhao, Justin and Kale, Mihir}, booktitle={Proceedings of the 2nd Workshop on Natural Language Generation, Evaluation, and Metrics (GEM 2022) at EMNLP 2022}, year={2022} }

搜集汇总

数据集介绍

构建方式

CLSE数据集通过专家语言学家的注释构建，涵盖了34种语言和74种语义类型。数据集的构建基于Google知识图谱API中的大量实体，并由语言学家对这些实体进行语言学属性的标注，如词性、格、数、性别等。每个实体的语言学属性被编码为‘语言、语义类型、语言学签名’三元组，确保在特定语言和语义类型下，实体的语言学属性分布均衡。

使用方法

CLSE数据集可用于增强现有的自然语言生成数据集，通过替换或增加具有不同语言学属性的实体来提升数据集的语言多样性。用户可以根据特定的语言和语义类型，从数据集中选择合适的实体进行替换或扩展。此外，数据集还可用于构建语言学多样性评估基准，通过对比不同语言生成系统在处理复杂语言现象时的表现，帮助研究人员优化和改进自然语言生成模型。

背景与挑战

背景概述

CLSE（Corpus of Linguistically Significant Entities）数据集由Google的研究团队创建，旨在解决自然语言生成（NLG）中命名实体处理的挑战。该数据集由语言学专家注释，涵盖34种语言和74种语义类型，支持从航空订票到视频游戏等多种应用。CLSE的核心研究问题是如何在NLG系统中正确处理命名实体的语言属性，避免语法错误，如介词错误、冠词处理不当或实体屈折错误。该数据集的发布为NLG系统的语言多样性评估提供了重要资源，并通过增强Schema-Guided Dialog Dataset（SGD-CLSE）展示了其在多语言环境中的应用潜力。

当前挑战

CLSE数据集面临的挑战主要集中在两个方面：一是如何解决NLG系统中命名实体处理的语言复杂性问题，特别是在处理高度屈折语言（如俄语）和低资源语言（如马拉地语）时，确保语法正确性；二是数据集构建过程中遇到的挑战，包括为不同语言和语义类型提供平衡的语言属性注释，以及处理低资源语言中注释资源的有限性。此外，CLSE还需要应对不同语言中语言现象的多样性，确保数据集在不同语言环境下的适用性和鲁棒性。

常用场景

经典使用场景

CLSE数据集的经典使用场景主要集中在自然语言生成（NLG）任务中，特别是在处理命名实体时，确保生成文本的语法正确性。通过提供丰富的语言学标注，CLSE能够帮助NLG系统在生成文本时正确处理名词的性、数、格等语言现象，从而避免常见的语法错误。例如，在多语言对话系统中，CLSE可以用于生成符合目标语言语法规则的对话回复，尤其是在高资源和低资源语言中，确保生成的文本在语法上更加自然和流畅。

解决学术问题

CLSE数据集解决了自然语言生成领域中命名实体处理的关键问题，尤其是在多语言环境下，如何确保生成文本的语法正确性。传统的NLG评估方法往往忽略了语言学特征，导致生成的文本在语法上存在错误，尤其是在从简单语言（如英语）翻译到复杂语言（如俄语）时。CLSE通过提供详细的语言学标注，帮助研究者构建更加鲁棒的NLG系统，从而推动了多语言NLG研究的发展，尤其是在低资源语言和高度屈折语言中的应用。

实际应用

CLSE数据集在实际应用中具有广泛的应用场景，特别是在虚拟助手、聊天机器人和多语言对话系统中。例如，在虚拟助手中，CLSE可以帮助生成符合用户语言习惯的对话回复，确保用户在与系统交互时感受到自然和流畅的体验。此外，CLSE还可以用于多语言机器翻译任务中，通过替换命名实体来测试翻译系统的鲁棒性，确保生成的翻译文本在语法和语义上的一致性。

数据集最近研究