SemEval-2013 task 12 and SemEval-2015 task 13 multilingual datasets

github2023-05-16 更新2024-05-31 收录

下载链接：

https://github.com/SapienzaNLP/mwsd-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库发布了SemEval-2013任务12和SemEval-2015任务13的多语言黄金标准更新版本。原始数据使用的是旧版本的BabelNet，现已不再可用。为了便于使用和系统间的公平比较，我们将所有原始数据集中的可能黄金键映射到最新的BabelNet版本（索引版本4.0和API版本4.0.1），并标准化了词性标签，处理了多词实例，使其现在与单个ID关联并包含在单个XML标签内。此外，我们还提供了两种标准分割：all和wn。

This repository releases updated multilingual gold standard versions for SemEval-2013 Task 12 and SemEval-2015 Task 13. The original data utilized an older version of BabelNet, which is no longer available. To facilitate usage and ensure fair comparisons across systems, we have mapped all possible gold keys from the original datasets to the latest version of BabelNet (index version 4.0 and API version 4.0.1), standardized part-of-speech tags, and processed multi-word instances so that they are now associated with a single ID and included within a single XML tag. Additionally, we provide two standard splits: all and wn.

创建时间：

2020-06-19

原始信息汇总

数据集概述

数据集内容

本数据集包含SemEval-2013任务12和SemEval-2015任务13的多语言黄金标准数据，涵盖法语、德语、意大利语和西班牙语。数据集更新了原始数据，将旧版本的BabelNet映射到最新版本，并标准化了词性标签。

数据集结构

数据集分为两个标准分割：

all: 包含所有成功映射的实例。
wn: 仅包含与WordNet中含义相关的实例，是all的一个子集。

数据集创建

创建新数据集时，尽可能使用原始数据提供的WordNet含义键。对于未关联WordNet含义键的实例，使用原始BabelNet索引检索相关信息，并在新索引中查找匹配项。

数据集统计

WordNet Split

Dataset	Number of Instances	Word Types	Unique BN Synsets	Unique WN Synsets	Word Average Polysemy	Instance Average Polysemy	Polysemous Words
SemEval2013-it	1490	604	702	702	3.80	5.51	458
SemEval2013-es	1260	541	597	597	4.20	5.52	421
SemEval2013-fr	1449	612	655	655	2.36	3.03	370
SemEval2013-de	1076	484	481	481	1.60	2.17	184
SemEval2015-it	1007	531	688	688	4.38	5.27	420
SemEval2015-es	1043	507	733	733	6.17	6.99	446

ALL Split

Dataset	Number of Instances	Word Types	Unique BN Synsets	Word Average Polysemy	Instance Average Polysemy	Polysemous Words
SemEval2013-it	1665	731	825	4.63	6.46	541
SemEval2013-es	1463	678	730	4.85	6.36	484
SemEval2013-fr	1618	730	779	3.69	4.53	531
SemEval2013-de	1389	692	690	2.52	3.30	362
SemEval2015-it	1063	557	730	5.02	5.87	456
SemEval2015-es	1101	541	774	6.62	7.39	475

数据集使用

为正确构建词汇表（即词（词条#词性）与其可能含义的关联），需遵循特定步骤，包括下载BabelNet索引和API，并设置属性文件。

联系方式

如有疑问，可通过GitHub问题或电子邮件pasini[at]di[dot]uniroma1[dot]it联系。

许可证

本数据集及其代码遵循Attribution-Non Commercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于SemEval-2013任务12和SemEval-2015任务13的多语言词义消歧（WSD）任务。原始数据使用了旧版本的BabelNet（1.1.1和2.5），为了便于使用和确保系统间的公平比较，研究者将这些数据映射到最新版本的BabelNet（4.0）。通过WordNet 3.0的语义键，将旧的BabelNet同义词集ID映射到新的ID。对于没有WordNet语义键的实例，则利用BabelNet索引检索相关的维基百科页面标题和释义，进行匹配映射。最终，数据集被分为两个标准子集：包含所有映射实例的“all”子集和仅包含与WordNet同义词集相关的“wn”子集。

特点

该数据集涵盖了法语、德语、意大利语和西班牙语的多语言词义消歧任务，具有丰富的语言多样性。数据集中的每个实例都经过精心处理，确保其与BabelNet 4.0的同义词集ID准确对应。此外，数据集还提供了标准化的词性标签和统一的XML标签格式，便于后续的分析和处理。数据集的统计信息详细展示了每个语言的实例数量、词类型、同义词集数量以及词的多义性等关键指标，为研究者提供了全面的参考。

使用方法

使用该数据集时，首先需要下载并解压缩多语言数据集文件。随后，通过BabelNet API和索引文件构建词义清单。用户需确保配置文件中的路径设置正确，特别是BabelNet索引和WordNet的路径。通过运行提供的脚本，可以生成特定语言的词义清单。数据集的使用不仅限于词义消歧任务，还可用于多语言自然语言处理的其他研究领域。数据集的XML格式和黄金标准文件为模型的训练和评估提供了坚实的基础。

背景与挑战

背景概述

SemEval-2013 task 12和SemEval-2015 task 13多语言数据集由Raganato等人在EACL 2017会议上首次发布，旨在为词义消歧（Word Sense Disambiguation, WSD）任务提供多语言支持。该数据集涵盖了法语、德语、意大利语和西班牙语，基于BabelNet 1.1.1和2.5版本构建。为了适应最新的BabelNet 4.0版本，研究人员对原始数据进行了映射和标准化处理，确保数据的一致性和可用性。该数据集在自然语言处理领域具有重要影响力，尤其是在多语言词义消歧任务中，为研究者提供了宝贵的资源。

当前挑战

该数据集在构建过程中面临的主要挑战包括：1) 数据映射的复杂性，由于原始数据基于旧版BabelNet，需将其映射到新版BabelNet 4.0，涉及大量手动和自动化的匹配工作；2) 多语言数据的处理，不同语言的词义表达和语法结构差异显著，增加了数据标准化和标注的难度；3) 数据完整性问题，部分实例无法找到对应的BabelNet synset，导致数据丢失。此外，词义消歧任务本身具有高度复杂性，尤其是在多语言环境下，词义的多样性和歧义性使得模型的训练和评估更具挑战性。

常用场景

经典使用场景

SemEval-2013 task 12和SemEval-2015 task 13多语言数据集在自然语言处理领域中被广泛用于词义消歧（WSD）任务。这些数据集包含了法语、德语、意大利语和西班牙语的标注数据，研究者们可以利用这些数据进行多语言词义消歧模型的训练与评估。通过使用BabelNet的最新版本进行数据映射，确保了数据的一致性和可比较性，使得不同系统之间的性能评估更加公平。

衍生相关工作

基于该数据集，许多经典的多语言词义消歧模型和算法得以发展。例如，研究者们利用这些数据开发了基于深度学习的词义消歧模型，显著提升了多语言环境下的消歧效果。此外，该数据集还促进了BabelNet和WordNet等语义资源的进一步整合与优化，推动了多语言语义计算领域的研究进展。

数据集最近研究