GETALP/FLUE_WSD

Name: GETALP/FLUE_WSD
Creator: GETALP
Published: 2023-04-11 14:47:04
License: 暂无描述

Hugging Face2023-04-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GETALP/FLUE_WSD

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集分为三个子数据集：FrenchSemEval-Task12、French WNGT和SemCor的自动翻译版本。主要用于法语词汇意义消歧任务。数据集的特征包括文档ID、句子、句子标签、表面形式、标签、词ID、分数、词元和词性等。数据集的分割包括SemCor、SemEval和WNGT，每个分割都有相应的字节大小和示例数量。

This dataset comprises three subsets: FrenchSemEval-Task12, French WNGT, and the automatically translated version of SemCor. It is primarily intended for French word sense disambiguation (WSD) tasks. The features included in the dataset are document ID, sentence, sentence label, surface form, label, word ID, score, lemma, and part-of-speech (POS), among others. The dataset splits cover SemCor, SemEval, and WNGT, with each split having a corresponding byte size and sample count.

提供机构：

GETALP

原始信息汇总

数据集概述

数据集名称

Word Sense Disambiguation for FLUE

数据集描述

该数据集包含三个子数据集：FrenchSemEval-Task12, French WNGT, 以及SemCor的自动翻译版本。主要用于法语的词义消歧任务。

语言

法语

许可信息

GNU Lesser General Public License

数据集特征

document_id: 字符串类型
sentence: 字符串类型
sentence_label: 字符串类型
sentence_first_label: 字符串类型
surface_forms: 字符串序列
labels: 字符串序列
first_labels: 字符串序列
word_id: 字符串序列
scores: 字符串序列
lemmas: 字符串序列
pos: 字符串序列

数据集分割

SemCor: 37176个样本，大小为71632913字节
SemEval: 306个样本，大小为749832字节
WNGT: 117659个样本，大小为206691837字节

下载大小

41831981字节

数据集大小

279074582字节

引用信息

bibtex @inproceedings{vial-etal-2019-sense, title = "Sense Vocabulary Compression through the Semantic Knowledge of {W}ord{N}et for Neural Word Sense Disambiguation", author = {Vial, Lo{"i}c and Lecouteux, Benjamin and Schwab, Didier}, booktitle = "Proceedings of the 10th Global Wordnet Conference", month = jul, year = "2019", address = "Wroclaw, Poland", publisher = "Global Wordnet Association", url = "https://aclanthology.org/2019.gwc-1.14", pages = "108--117", abstract = "In this article, we tackle the issue of the limited quantity of manually sense annotated corpora for the task of word sense disambiguation, by exploiting the semantic relationships between senses such as synonymy, hypernymy and hyponymy, in order to compress the sense vocabulary of Princeton WordNet, and thus reduce the number of different sense tags that must be observed to disambiguate all words of the lexical database. We propose two different methods that greatly reduce the size of neural WSD models, with the benefit of improving their coverage without additional training data, and without impacting their precision. In addition to our methods, we present a WSD system which relies on pre-trained BERT word vectors in order to achieve results that significantly outperforms the state of the art on all WSD evaluation tasks.", }

贡献者

loic.vial@univ-grenoble-alpes.fr
benjamin.lecouteux@univ-grenoble-alpes.fr
didier.schwab@univ-grenoble-alpes.fr

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，词义消歧任务对于理解语言的多义性至关重要。GETALP/FLUE_WSD数据集的构建融合了多源法语语料，其核心组成部分包括FrenchSemEval-Task12、French WNGT以及通过自动翻译技术从英语SemCor转换而来的法语版本。这一构建过程不仅整合了人工标注的权威数据集，还借助自动化手段扩展了语料规模，从而为法语词义消歧研究提供了兼具质量与数量的资源基础。

使用方法

研究者可依据不同实验目标灵活运用该数据集。对于模型训练，可主要采用规模较大的SemCor和WNGT子集；而在评估阶段，则可利用SemEval子集进行精准性能测试。数据集中提供的词义标签序列与词性标注信息，能够直接支持基于深度学习的序列标注模型训练，同时其结构化特征也便于传统机器学习方法进行特征工程处理。

背景与挑战

背景概述

在自然语言处理领域，词义消歧（Word Sense Disambiguation, WSD）作为一项核心语义理解任务，旨在根据上下文确定多义词在特定语境中的准确含义。GETALP/FLUE_WSD数据集由法国格勒诺布尔阿尔卑斯大学的研究团队于2019年创建，主要研究人员包括Loïc Vial、Benjamin Lecouteux和Didier Schwab。该数据集专注于法语词义消歧，通过整合FrenchSemEval-Task12、French WNGT以及自动翻译的SemCor子集，构建了一个大规模的法语词义标注资源。其核心研究问题在于解决法语中由于词汇多义性导致的语义歧义，为法语自然语言处理模型提供了重要的训练与评估基础，显著推动了法语语义理解技术的发展，并在多语言词义消歧研究中产生了广泛影响力。

当前挑战

GETALP/FLUE_WSD数据集面临的挑战主要体现在两个方面：在领域问题层面，词义消歧任务本身具有高度复杂性，法语中丰富的词汇多义性和细微的语义差异使得模型需要精确捕捉上下文依赖关系，同时避免因语义重叠导致的误判；在构建过程中，数据集的创建依赖于有限的法语标注资源，研究人员需通过自动翻译和语义压缩技术扩展数据规模，这引入了翻译偏差与语义信息损失的风险，且如何有效利用WordNet的语义关系进行词汇压缩以提升模型覆盖范围，同时保持标注一致性，构成了技术实施上的主要难点。

常用场景

经典使用场景

在自然语言处理领域，词义消歧任务旨在解决词汇在特定语境中的确切含义识别问题。GETALP/FLUE_WSD数据集作为法语词义消歧的基准资源，其经典使用场景集中于训练和评估神经网络模型，特别是基于预训练语言模型如BERT的消歧系统。该数据集通过整合FrenchSemEval-Task12、French WNGT及自动翻译的SemCor子集，为研究者提供了丰富的标注语料，支持模型在多样化文本环境中学习词汇的语义分布，从而提升消歧的准确性与泛化能力。

解决学术问题

该数据集有效应对了法语词义消歧研究中标注数据稀缺的核心挑战。通过压缩WordNet的语义知识库并利用同义、上下位等语义关系，它减少了模型所需处理的义项标签数量，从而在有限训练数据下扩展了覆盖范围。这一方法不仅降低了神经模型的复杂度，还显著提升了消歧精度，为跨语言词义消歧研究提供了可迁移的框架，推动了语义计算领域在资源较少语言中的进展。

实际应用

在实际应用中，GETALP/FLUE_WSD数据集为法语自然语言处理工具的开发奠定了坚实基础。例如，在机器翻译系统中，准确的词义消歧能改善译文质量，避免歧义导致的语义偏差；在信息检索与问答系统中，它有助于理解用户查询的深层意图，提升检索的相关性。此外，该数据集还可应用于教育技术领域，辅助法语学习者掌握词汇的多义用法，增强语言教学的智能化水平。

数据集最近研究