CoAM: Corpus of All-Type Multiword Expressions

Name: CoAM: Corpus of All-Type Multiword Expressions
Creator: 奈良先端科学技术大学院大学, Resolve Research
Published: 2024-12-24 12:09:33
License: 暂无描述

arXiv2024-12-24 更新2024-12-26 收录

下载链接：

http://arxiv.org/abs/2412.18151v1

下载链接

链接失效反馈

官方服务：

资源简介：

CoAM数据集是由奈良先端科学技术大学院大学和Resolve Research共同创建的多词表达（MWE）识别数据集，包含1300个句子。该数据集旨在解决现有MWE识别数据集标注不一致、类型单一或规模有限的问题。数据集通过多步骤构建过程，包括人工标注、人工审查和自动化一致性检查，确保数据质量。数据集中的MWE被标记为不同类型（如名词、动词等），以便进行细粒度的错误分析。数据集的应用领域包括机器翻译和词汇复杂性评估等自然语言处理任务，旨在提高MWE识别的准确性和可靠性。

The CoAM dataset is a multi-word expression (MWE) recognition dataset jointly created by Nara Institute of Science and Technology (NAIST) and Resolve Research, consisting of 1,300 sentences. This dataset is designed to address the shortcomings of existing MWE recognition datasets, including inconsistent annotations, single category coverage, and limited scale. The dataset adopts a multi-step construction process that includes manual annotation, manual review, and automated consistency checks to ensure high data quality. MWEs in the dataset are labeled with various categories such as nouns, verbs, etc., to enable fine-grained error analysis. The dataset can be applied to natural language processing tasks like machine translation and lexical complexity assessment, aiming to improve the accuracy and reliability of MWE recognition.

提供机构：

奈良先端科学技术大学院大学, Resolve Research

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

CoAM数据集的构建过程经过精心设计，以确保数据的高质量和一致性。首先，从多个来源选取了1300个句子，涵盖了新闻、评论、TED演讲和网络文本等多种语料。每个句子由两名标注员进行独立标注，并由一名审阅者进行复核，以确保标注的准确性。此外，还采用了自动一致性检查工具，进一步消除标注中的不一致性。标注过程中使用了基于复选框的标注界面CAIGen，该界面支持灵活标注，包括不连续的多词表达（MWEs）。

特点

CoAM数据集的特点在于其全面性和精细的标注。它不仅涵盖了所有类型的多词表达（MWEs），如名词、动词、修饰/连接词、从句等，还为每个MWE标注了其类型，便于进行细粒度的错误分析。数据集的标注质量通过多人标注和审阅得到了保障，且通过自动化工具进行了一致性检查，确保了标注的可靠性。此外，CoAM的标注界面支持不连续和重叠的MWEs，这在以往的标注工具中较为罕见。

使用方法

CoAM数据集主要用于多词表达识别（MWEI）任务的评估和模型训练。研究人员可以使用该数据集来训练和测试各种MWEI模型，特别是基于大语言模型（LLM）的微调方法。通过CoAM，研究人员可以分析不同MWE类型的识别难度，并评估模型在识别未见过的MWEs时的表现。此外，CoAM的精细标注还为研究MWE的语义、句法和词汇特性提供了丰富的数据支持。

背景与挑战

背景概述

CoAM: Corpus of All-Type Multiword Expressions（CoAM）是由奈良先端科学技术大学院大学（NAIST）和Resolve Research的研究团队于2024年创建的一个多词表达（MWE）识别数据集。该数据集包含1.3K个句子，旨在解决现有MWE识别数据集中存在的标注不一致、类型单一和规模有限等问题。CoAM通过多步骤的构建过程，包括人工标注、人工审查和自动化一致性检查，确保了数据的高质量。数据集中的MWE被标注为不同的类型，如名词（NOUN）和动词（VERB），以便进行细粒度的错误分析。CoAM的创建为MWE识别任务提供了可靠的评估基准，并在机器翻译等下游任务中具有重要的应用价值。

当前挑战

CoAM数据集在构建和应用过程中面临多重挑战。首先，MWE识别任务本身具有复杂性，尤其是对于不连续或重叠的MWE，现有的识别方法往往难以准确捕捉。其次，数据集的构建过程中，尽管采用了严格的标注和审查流程，初始标注者之间的标注一致性较低，仅为37.3%，这表明MWE的标注存在较高的主观性。此外，CoAM中的MWE类型多样，尤其是名词和从句类MWE的识别难度较大，且未包含在WordNet中的MWE（如“real estate”）识别效果较差。这些挑战不仅影响了数据集的构建质量，也对MWE识别模型的性能提出了更高的要求。

常用场景

经典使用场景

CoAM数据集在多词表达式（MWE）识别任务中具有经典的应用场景。该数据集通过包含多种类型的MWE（如名词、动词、修饰/连接词等），为研究人员提供了一个全面的评估平台。在自然语言处理领域，MWE识别是机器翻译、文本理解和词汇复杂性评估等下游任务的关键步骤。CoAM通过其精细的标注和一致性检查，确保了MWE识别系统在不同类型MWE上的性能评估更加可靠。

实际应用

在实际应用中，CoAM数据集被广泛用于机器翻译、文本理解和词汇复杂性评估等任务。通过识别文本中的MWE，系统能够更好地理解句子的语义结构，从而提高翻译质量和文本分析的准确性。例如，在机器翻译中，识别并正确处理MWE可以避免翻译错误，提升翻译的流畅性和准确性。此外，CoAM还为教育领域的词汇复杂性评估提供了重要支持，帮助识别和理解复杂的多词表达。

衍生相关工作

CoAM数据集的发布推动了多词表达式识别领域的相关研究。基于CoAM，研究人员开发了多种MWE识别方法，如基于规则的系统与可训练的双编码器模型结合的MWEasWSD方法，以及通过大语言模型（LLM）微调的方法。这些方法在CoAM上的实验表明，微调后的LLM在MWE识别任务中表现优异，超越了现有的最先进方法。此外，CoAM还启发了对MWE类型识别的深入研究，如动词MWE与名词MWE的识别难度差异，为未来的MWE研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集