WiC

Name: WiC
Creator: 剑桥大学
Published: 2019-04-27 17:31:59
License: 暂无描述

arXiv2019-04-27 更新2024-06-21 收录

下载链接：

https://pilehvar.github.io/wic/

下载链接

链接失效反馈

官方服务：

资源简介：

WiC数据集是由剑桥大学等机构创建，专注于评估上下文敏感词义表示的大型数据集。该数据集包含7428个实例，每个实例包含一个目标词及其在两个不同上下文中的使用情况，旨在通过二元分类任务评估模型对词义动态变化的理解能力。数据集内容来源于WordNet、VerbNet和Wiktionary等权威资源，经过专家精心注释和筛选，确保数据质量。WiC数据集的应用领域广泛，主要用于评估和改进自然语言处理中词义消歧和上下文敏感词向量模型，以解决现有模型在处理多义词时的局限性。

The WiC dataset was developed by institutions including the University of Cambridge, and it is a large-scale benchmark dataset dedicated to evaluating context-sensitive word meaning representations. It comprises 7,428 instances, each containing a target word and its respective usages in two distinct contexts, with the goal of assessing a model's capability to comprehend dynamic shifts in word meaning via a binary classification task. The dataset's content is sourced from authoritative resources such as WordNet, VerbNet, and Wiktionary, and has been meticulously annotated and filtered by domain experts to guarantee high data quality. The WiC dataset has broad application domains, primarily used to evaluate and enhance word sense disambiguation and context-sensitive word vector models in natural language processing, thereby addressing the limitations of existing models when handling polysemous words.

提供机构：

剑桥大学

创建时间：

2018-08-28

搜集汇总

数据集介绍

构建方式

WiC数据集的构建基于专家审核的注释，旨在提供一个大规模的Word in Context数据集，用于评估上下文敏感表示。该数据集通过从WordNet、VerbNet和Wiktionary等三个词库资源中提取的例句来构建，每个例句都包含一个目标词，并在两个不同的语境下出现。构建过程包括从这些资源中提取所有可能的正例和反例，并进行编译，以确保实例的多样性和平衡性。此外，为了提高数据集的质量，还进行了半自动的后期处理和自动修剪，以去除细微的语义差异。最后，通过对测试集中随机采样的实例进行人工标注，验证了数据集的质量和难度。

使用方法

使用WiC数据集时，可以将任务视为二元分类。每个实例包含一个目标词，以及两个包含该目标词的语境。任务是根据目标词在两个语境中的出现是否对应相同的含义进行分类。在评估上下文敏感的词嵌入模型时，可以将这些模型应用于每个实例的语境，并使用二元分类器（如MLP或阈值分类器）对模型生成的嵌入进行分类。通过比较模型性能和人工标注结果，可以评估模型的上下文敏感性和词义消歧能力。

背景与挑战

背景概述

自然语言处理（NLP）领域中，词嵌入技术一直是研究的热点。传统的词嵌入模型无法捕捉词语在语境中的动态语义，即词语可能根据上下文环境具有不同的含义。为了解决这一局限性，许多专注于词义表示的技术被提出，包括多原型嵌入和上下文词嵌入。然而，尽管这些技术在研究界备受关注，但专门针对词语动态语义的评价基准却相对缺乏。WiC数据集正是为了填补这一空白而创建的，它是一个大规模的基于专家标注的Word in Context数据集，旨在对上下文敏感的表示进行通用评估。WiC数据集的创建时间是2019年4月27日，由英国剑桥大学和卡迪夫大学的学者合作完成。该数据集的核心研究问题是评估上下文敏感词嵌入模型的有效性，并对相关领域的研究产生了深远影响，为评估和改进上下文敏感词嵌入模型提供了高质量的标准。

当前挑战

WiC数据集在构建过程中面临着一些挑战。首先，它所解决的领域问题是词语在语境中的动态语义表示。由于词语的动态性质，传统的词嵌入模型无法准确地捕捉词语在不同上下文中的含义。其次，在构建数据集的过程中，研究人员需要从WordNet、VerbNet和Wiktionary等词典资源中提取句子，并对其进行标注，以确保数据集的质量和多样性。此外，由于WordNet中某些词语的词义过于细粒度，研究人员还进行了自动化的修剪，以避免过于细微的词义区分。最后，WiC数据集还面临着与其他评价基准的比较和竞争，需要不断地改进和完善。

常用场景

经典使用场景

WiC数据集主要用于评估上下文敏感词嵌入（context-sensitive word embeddings）的性能。它通过专家注释的例子，提供了一个大规模的基准，用于测试模型对词义动态性的理解能力。WiC数据集被设计成一个二元分类任务，其中每个实例包含一个目标词和两个不同的语境，模型需要判断这两个语境中的目标词是否表示相同的意义。这一设计使得WiC数据集成为评估上下文敏感词嵌入技术的理想选择。

解决学术问题

WiC数据集解决了现有词嵌入模型在处理词义动态性方面的局限性。传统的词嵌入模型通常无法准确捕捉词在不同语境下的不同意义，而WiC数据集提供了评估上下文敏感词嵌入技术的平台，有助于推动相关领域的研究。此外，WiC数据集还揭示了现有基准（如Stanford Contextual Word Similarity）的不足，为未来研究提供了新的方向。

实际应用

WiC数据集在实际应用中，可以用于改进自然语言处理（NLP）任务中的词义消歧（word sense disambiguation）和语义相似度计算。通过使用WiC数据集进行训练和评估，可以开发出更准确、更鲁棒的NLP模型，从而提升文本分析、机器翻译、信息检索等任务的性能。此外，WiC数据集还可以用于研究词义变化的规律，为语言学和认知科学领域的研究提供数据支持。

数据集最近研究