现代汉语词义消歧数据集

github2024-05-13 更新2024-05-31 收录

下载链接：

https://github.com/SUDA-LA/Modern-Chinese-Word-Sense-Annotated-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

词义消歧作为自然语言处理最经典的任务之一,旨在识别多义词在给定上下文中的正确词义。相比英文,中文的一词多义现象更普遍,然而当前公开发布的汉语词义消歧数据集很少。本文爬取并融合了两个公开的网络词典,并从中筛选1083个词语和相关义项作为待标注对象。进而,从网络数据及专业语料中为抽取相关句子。最后,以多人标注、专家审核的方式进行了人工标注。数据集1包含将近2万个句子,即每个词平均对应约20个句子。本文将数据集划分为训练集、验证集和测试集,对多种模型进行实验对比。

Word sense disambiguation, one of the most classic tasks in natural language processing, aims to identify the correct sense of a polysemous word in a given context. Compared to English, polysemy is more prevalent in Chinese, yet there are few publicly available Chinese word sense disambiguation datasets. This paper crawled and merged two public online dictionaries, selecting 1083 words and related senses as the objects for annotation. Subsequently, relevant sentences were extracted from web data and professional corpora. Finally, manual annotation was conducted through multi-person labeling and expert review. Dataset 1 contains nearly 20,000 sentences, with each word corresponding to an average of about 20 sentences. This paper divides the dataset into training, validation, and test sets, and conducts experimental comparisons on various models.

创建时间：

2023-06-17

原始信息汇总

基于网络词典的现代汉语词义消歧数据集构建

数据集概述

本数据集旨在解决中文一词多义现象，通过爬取并融合两个公开网络词典，筛选出1083个词语及其相关义项。数据集包含近2万个句子，每个词平均对应约20个句子。数据集已划分为训练集、验证集和测试集，适用于多种模型的实验对比。

文件组成

Chinese_wsd_final：包含基于论文规则构建的现代汉语词义消歧数据集，一个例句可能对应多个词义。
wsd_multi_sense_only_final：与Chinese_wsd_final对应的词语词义集合。
wsd_single_sense_sentence_final：将Chinese_wsd_final中数据变为单选形式，每个例句仅对应一个词义，且词义进行了合并。

数据集划分

训练集
验证集
测试集

数据集特点

人工标注，多人标注与专家审核相结合。
数据集规模大，覆盖广泛的中文多义词。
支持多种模型实验，适用于词义消歧任务的研究与应用。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对两个公开网络词典的爬取与融合，从中筛选出1083个具有多义性的词语及其相关义项。随后，从网络数据和专业语料中抽取相关句子，并通过多人标注与专家审核的方式进行人工标注，确保数据的准确性和可靠性。最终，数据集包含了近2万个句子，每个词语平均对应约20个句子，为词义消歧任务提供了丰富的语料支持。

特点

该数据集的显著特点在于其多选形式的词义消歧设计，即一个句子可能对应多个词义，这种设计更贴近中文多义词的实际使用场景。此外，数据集的构建过程中采用了多人标注和专家审核的方式，确保了标注的高质量。数据集还提供了单选形式的句子，便于不同模型的适配和比较。

使用方法

用户可以从数据集中获取训练集、验证集和测试集，用于词义消歧模型的训练与评估。数据集提供了多选和单选两种形式的句子，用户可根据需求选择合适的格式。此外，数据集还附带了GlossBERT和ESCHER模型的修改代码，方便用户直接使用或在此基础上进行进一步优化。

背景与挑战

背景概述

词义消歧作为自然语言处理领域中的经典任务，旨在识别多义词在特定上下文中的准确含义。中文由于其语言特性，一词多义现象尤为普遍，然而现有的公开汉语词义消歧数据集相对稀缺。为此，Yan等人于2023年基于两个公开的网络词典，构建了一个现代汉语词义消歧数据集。该数据集筛选了1083个多义词及其相关义项，并通过网络数据和专业语料抽取了近2万个句子进行人工标注，每个词平均对应约20个句子。此数据集的构建不仅填补了中文词义消歧领域的数据空白，还为后续研究提供了丰富的资源，推动了中文自然语言处理技术的发展。

当前挑战

尽管该数据集在词义消歧领域具有重要意义，但其构建和应用过程中仍面临多项挑战。首先，数据集采用“多选”形式的词义消歧，导致现有模型如GlossBERT、BEM和ESCHER在使用时需进行适应性修改，增加了模型适配的复杂性。其次，由于中文一词多义现象的普遍性，确保每个词义在不同上下文中的准确标注是一项艰巨的任务，需要多人标注和专家审核，过程耗时且易出错。此外，数据集的划分规则与传统方法不同，可能影响实验结果的可比性。最后，计算资源的限制也制约了模型性能的进一步提升，尤其是在处理大规模数据时。

常用场景

经典使用场景

现代汉语词义消歧数据集在自然语言处理领域中扮演着至关重要的角色，其经典使用场景主要体现在多义词的词义识别上。该数据集通过提供丰富的上下文句子，帮助模型准确识别多义词在特定语境中的具体含义。这种能力对于提升机器翻译、文本理解、信息检索等任务的准确性具有显著意义。

解决学术问题

该数据集有效解决了中文词义消歧这一长期存在的学术难题。由于中文词汇的多义性普遍且复杂，传统的词义消歧方法往往难以应对。通过提供大规模、高质量的标注数据，该数据集为研究者提供了一个强大的工具，推动了词义消歧技术的发展，并为相关领域的研究提供了新的视角和方法。

衍生相关工作

基于该数据集，研究者们开发了多种先进的词义消歧模型，如GlossBERT和ESCHER，这些模型在数据集上的表现尤为突出。此外，该数据集还激发了其他相关研究，如多义词的语义表示学习、跨语言词义消歧等。这些工作不仅丰富了词义消歧的理论体系，也为实际应用提供了更多可能性。

以上内容由遇见数据集搜集并总结生成