SemSketches-2021

Name: SemSketches-2021
Creator: ABBYY, National Research University Higher School of Economics, Moscow Institute of Physics and Technology, Deeppavlov MIPT, Moscow, Russia
Published: 2025-05-23 18:15:22
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/dialogue-evaluation/SemSketches

下载链接

链接失效反馈

官方服务：

资源简介：

SemSketches-2021数据集是由ABBYY、俄罗斯国立高等经济大学等机构创建的俄语语义草图开放语料库，旨在探索语义草图的自动处理方法。数据集包含915个语义草图，每个草图都是对一个词的语义兼容性的特殊表示，包括词的所有语义链接按照它们与核心词的语义关系进行分组。该数据集通过SemSketches Shared Task进行测试，旨在评估草图的质量和代表性，并开发用于处理草图的工具。数据集可用于语义角色标注、词汇学等领域的研究。

提供机构：

ABBYY, National Research University Higher School of Economics, Moscow Institute of Physics and Technology, Deeppavlov MIPT, Moscow, Russia

创建时间：

2025-05-23

原始信息汇总

SemSketches 数据集概述

数据集简介

SemSketches 是一个关于语义草图的数据集，旨在通过语义草图评估其代表性和说明性。语义草图表示一个词的最常见搭配，根据核心词与其依赖项之间的语义关系进行排序。数据集的目标是在不看到核心词本身的情况下，通过上下文找到相应的语义草图。

数据集内容

数据文件

dev.gold：包含 44750 个句子与 895 个语义草图的映射关系。
manual_dev.gold：手动选择的 dev.gold 子集，包含 4347 个句子与 100 个语义草图的映射关系。

任务

任务1：匹配上下文中的谓词语义草图
- 提供不同谓词的上下文集合。
- 目标是将上下文中的谓词与匿名化的语义草图进行匹配（已知角色和搭配，但谓词本身被隐藏）。
- 在歧义谓词的情况下，可能涉及词义消歧（WSD）问题。
任务2：多语言语义草图映射
- 提供两种语言（俄语和英语）的语义草图集合，针对相同的意义。
- 目标是将多语言语义草图对进行匹配，实现跨语言意义链接。
- 主要指标为准确率。

组织者

Maria Ponomareva - ABBYY, HSE
Maria Petrova - ABBYY
Maria Yarova - MIPT
Julia Detkova - ABBYY
Oleg Serikov - DeepPavlov, HSE

重要链接

SemSketches Codalab 页面
Telegram 讨论组：https://t.me/SemSketches

时间线

事件	日期
试用数据发布	2021年2月12日
任务1数据发布	2021年2月17日
任务2数据发布	2021年3月5日
系统提交截止	2021年3月27日
最终结果公布	2021年3月29日
论文提交截止	2021年4月5日

语义草图定义

语义草图是一种词的广义词典学画像，表示词的兼容性描述。每个词的描述包括其最常见的语义依赖项集合，并根据其语义角色（如 Agent、Object、Locative）分类。每个角色提供相关的“填充词”（单词和短语），并根据其与核心词的兼容性频率进行排序。每个草图展示一个词在特定意义下的表现。

搜集汇总

数据集介绍

构建方式

SemSketches-2021数据集的构建基于俄罗斯语料库中的语义草图，这些草图通过Compreno解析器进行全语义标注。构建过程中，仅选择动词核心及其子树，并标注其语义类别和直接依赖的语义角色。数据集筛选了至少有两种含义的动词，确保每个动词在样本中至少对应两个语义类别。最终数据集包含915个语义草图，涵盖了高频的语义依赖关系，并通过人工检查确保草图的正确性和代表性。

特点

SemSketches-2021数据集的特点在于其独特的语义表示方式，不仅包含动词的语义角色标注，还涵盖了修饰语和附加语等全语义模型。数据集通过匿名化处理，隐藏了核心谓词，仅提供语义角色和填充词，从而为语义角色标注（SRL）和词义消歧（WSD）等任务提供了丰富的实验数据。此外，数据集的多样性和高频依赖关系的统计特性使其成为研究语义兼容性的重要资源。

使用方法

SemSketches-2021数据集的使用方法主要包括语义角色标注、词义消歧和语言模型探针任务。用户可以通过匹配匿名化草图与上下文来训练和评估模型性能。数据集分为试验数据、开发数据和手动开发数据三个部分，支持少样本或无监督学习。此外，数据集还可用于研究动词的多义性和语义依赖关系的多样性，为自然语言处理任务提供语言学支持。

背景与挑战

背景概述

SemSketches-2021是由ABBYY、俄罗斯国家研究大学高等经济学院和莫斯科物理技术学院的研究人员于2021年推出的一个语义草图语料库。该数据集旨在通过语义草图的形式表示词语的兼容性，其中所有语义链接根据其与核心词的语义关系进行分组。语义草图不仅考虑了词语之间的共现频率，还考虑了语义角色的频率，如施事、处所、客体或时间等。这一创新性方法为自然语言处理领域提供了一种可解释的语义表示形式，弥补了传统向量表示方法在可解释性方面的不足。该数据集的主要目标包括评估草图的代表性、开发草图处理工具、确定草图可解决的任务类型以及分析构建过程中遇到的错误。

当前挑战

SemSketches-2021数据集面临的主要挑战包括：1) 领域问题挑战：语义草图旨在解决语义角色标注（SRL）和词义消歧（WSD）问题，但由于其覆盖了所有语义角色（包括非核心角色），如何有效利用这些信息进行准确的语义分析仍是一个开放性问题；2) 构建过程挑战：在构建过程中，研究人员遇到了高频同义词对低频同义词的干扰问题，某些语义依赖项的错误分类问题，以及动词不同语法形式（时态、体、语态）的统一表示问题。此外，共享任务的结果表明，即使对人类来说相对简单的草图-语境匹配任务，对计算机系统而言仍具有相当的难度，这突显了开发更强大语义处理工具的必要性。

常用场景

经典使用场景

SemSketches-2021数据集在自然语言处理领域中被广泛用于语义角色标注（SRL）和词义消歧（WSD）任务。通过提供丰富的语义依赖关系和上下文信息，该数据集为研究者提供了一个独特的工具，用于分析和理解词汇的语义兼容性。其经典使用场景包括构建词汇的语义画像，以及通过匿名化处理测试模型对语义关系的理解能力。

实际应用

在实际应用中，SemSketches-2021数据集被用于构建和优化预训练语言模型的探测任务。通过嵌入语义草图，该数据集不仅支持手动词典编纂工作，还为自然语言处理的自动化方法提供了有效的语义表示工具。此外，该数据集还被用于多语言语义模型的开发，如英语语义草图的构建。

衍生相关工作

SemSketches-2021数据集衍生了多项相关研究，包括基于BERT模型的语义草图匹配方法、基于句子相似性目标的语言模型训练方法，以及基于掩码语言建模（MLM）的语义关系恢复方法。这些研究进一步推动了语义角色标注和词义消歧领域的发展，并为预训练语言模型的语义理解能力提供了新的评估工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集