FrameNet语义框架消歧数据集

Name: FrameNet语义框架消歧数据集
Creator: 阿姆斯特丹自由大学
Published: 2019-04-12 16:48:03
License: 暂无描述

arXiv2019-04-12 更新2024-06-21 收录

下载链接：

https://github.com/CrowdTruth/FrameDisambiguation

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为FrameNet语义框架消歧数据集，由阿姆斯特丹自由大学创建，包含超过5000个来自维基百科的单词-句子对。数据集通过创新的众包方法收集，每个句子由多名工作者标注，以捕捉标注者之间的分歧。与传统方法不同，本数据集提供了一个包含基于分歧得分的框架列表，表达每个框架适用于单词的置信度。数据集的应用领域包括自然语言处理系统的训练和评估，旨在解决由于文本和框架固有的歧义导致的标注不一致问题。

This dataset, named the FrameNet Semantic Frame Disambiguation Dataset, was created by Vrije Universiteit Amsterdam and contains over 5,000 word-sentence pairs sourced from Wikipedia. The dataset was collected through an innovative crowdsourcing method, where each sentence was annotated by multiple workers to capture inter-annotator disagreement. Unlike traditional approaches, this dataset provides a list of frames paired with disagreement-based scores that reflect the confidence level of each frame being applicable to the target word. The application scope of this dataset covers the training and evaluation of natural language processing (NLP) systems, aiming to address annotation inconsistencies caused by the inherent ambiguity of both text and semantic frames.

提供机构：

阿姆斯特丹自由大学

创建时间：

2019-04-12

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，语义框架消歧任务长期依赖专家标注，但成本高昂且规模有限。本数据集采用创新的众包策略构建，从维基百科语料中选取了超过5000个词句对，每个句子由15名众包工作者独立标注，以捕捉标注者间的分歧。通过CrowdTruth方法，将标注结果聚合为带置信度分数的多框架列表，而非单一最佳框架，从而更真实地反映文本与框架固有的歧义性。数据预处理阶段，利用Framester系统扩展了FrameNet的词元集，融合WordNet以增强覆盖范围，其中包含1000个FrameNet未收录词元的句子标注，进一步丰富了数据多样性。

特点

该数据集的核心特点在于其深度整合了语义歧义信息，突破了传统数据集中单一正确标注的局限。每个词句对均附带多个候选框架及其基于分歧计算的置信度分数，直观体现了框架间的重叠、父子关系或组合表达所导致的歧义现象。数据集中标注者分歧显著，例如超过720个句子有多数工作者选择至少两个框架，这揭示了自然语言中语义表达的复杂性与模糊性。此外，数据集涵盖了大量FrameNet之外的词元，为语义框架的泛化研究提供了宝贵资源，其规模在当前同类数据中居于领先地位。

使用方法

该数据集适用于训练和评估语义框架消歧模型，尤其适合探索多标签分类及置信度感知的学习方法。在使用时，研究者可依据句子质量分数筛选清晰或模糊的样本，以针对性地优化模型在不同歧义程度下的性能。评估阶段推荐采用肯德尔等级相关系数或余弦相似度等指标，对比模型预测的框架列表与数据集中带分数的标注结果，从而更公平地衡量模型在歧义场景下的表现。数据集中包含的扩展词元部分，可用于测试模型对未登录词汇的泛化能力，推动框架语义学在开放域应用中的发展。

背景与挑战

背景概述

FrameNet语义框架消歧数据集由Anca Dumitrache等人于2019年构建，依托阿姆斯特丹自由大学与谷歌的研究合作，旨在应对自然语言处理中语义框架消歧任务的资源匮乏问题。该数据集基于维基百科语料，收录了超过5000个词句对，并创新性地采用众包标注策略，通过多名标注者对同一句子进行独立标注以捕捉标注者间的分歧现象。其核心研究问题聚焦于如何有效处理语义框架固有的歧义性，挑战了传统单一正确框架标注的范式，转而提供带有置信度评分的多框架列表，从而更真实地反映语言理解的复杂性。这一资源不仅显著扩充了FrameNet框架消歧的标注规模，还为自然语言处理系统提供了更为合理和细粒度的训练与评估基准，推动了语义表示研究向包容歧义的方向演进。

当前挑战

该数据集致力于解决语义框架消歧领域的核心挑战，即如何准确识别词语在特定上下文中所对应的语义框架，尤其应对框架间因定义重叠、父子关系或组合表达导致的固有歧义。构建过程中面临多重挑战：其一，众包标注虽能高效收集数据，但标注者缺乏领域专业知识，可能引入噪声与不一致性；其二，处理FrameNet未覆盖的词汇单元需依赖外部资源如Framester系统进行扩展，增加了映射与对齐的复杂性；其三，标注分歧的量化与聚合需设计稳健的度量方法（如CrowdTruth指标），以区分真实歧义与标注错误，确保数据质量。这些挑战共同凸显了在语义消歧任务中平衡规模、精度与歧义表征的难度。

常用场景

经典使用场景

在自然语言处理领域，FrameNet语义框架消歧数据集为语义角色标注和框架消歧任务提供了关键资源。该数据集通过众包方式收集了超过5000个词句对，并采用多标注者策略捕捉语义模糊性，从而构建了一个包含置信度评分的框架列表。这一设计使得数据集能够有效支持机器学习模型在复杂语境下的框架选择，尤其在处理动词性词汇的语义表达时，数据集通过Framester系统扩展了词汇覆盖范围，增强了对外部词汇的消歧能力。

衍生相关工作

基于该数据集，研究者们衍生出多项经典工作，如改进的Open-Sesame多标签分类模型和Framester规则消歧工具的优化版本。这些工作进一步探索了利用置信度评分进行模型评估的新指标，如加权余弦相似度和肯德尔等级相关系数。同时，数据集也激发了关于众包标注质量与语义模糊性关系的深入研究，为后续构建更大规模的框架消歧资源奠定了方法论基础。

数据集最近研究