GUM-SAGE

Name: GUM-SAGE
Creator: Georgetown大学语言学系
Published: 2025-04-15 09:26:14
License: 暂无描述

arXiv2025-04-15 更新2025-04-17 收录

下载链接：

https://github.com/jl908069/gum_sum_salience1

下载链接

链接失效反馈

官方服务：

资源简介：

GUM-SAGE数据集是基于GUM语料库构建的，包含12种不同文本类型的英语文档，总共213个文档，超过32.3万个词汇。数据集通过众包方式为每个文档生成5个摘要，并根据实体在摘要中的出现频率为所有命名和非命名实体计算了显著性分数。该数据集旨在解决文本中实体显著性预测的问题，适用于评估和改进实体显著性预测模型。

提供机构：

Georgetown大学语言学系

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

GUM-SAGE数据集基于开放式多语体英语GUM语料库构建，采用创新的分级实体显著性标注方法。研究团队通过众包方式为每篇文档收集5份独立摘要，并运用字符串匹配、Stanza共指消解模型和GPT-4o多模态对齐技术，将摘要中的实体与原文进行精确映射。实体显著性分数根据其在多份摘要中的出现频率计算得出（如5/5摘要提及的实体得分为5），形成0-5分的连续梯度标注体系。为确保数据质量，开发集和测试集的对齐结果均经过人工校验，并采用逻辑回归集成学习算法融合各模块优势，最终达到98%的F1值。

特点

该数据集突破性地将摘要驱动的实体显著性预测转化为回归问题，覆盖12种文体（包括访谈、博客、教科书等）的213篇文档，标注32,300个命名与非命名实体。其核心特点体现在三方面：采用多摘要聚合策略消除单摘要偏差，实现显著性评分的连续梯度化；包含15.8%的显著实体（分数≥3），其中2.1%为顶级显著实体（分数=5）；首创实体类型与文体交叉分析维度，如对话类文本显著实体占比9.4%，而指导类文本高达32.9%。数据集还提供UD句法树、Wikification链接等多层语言标注，支持细粒度语言学分析。

使用方法

使用GUM-SAGE时需遵循三步流程：首先通过文档实体识别模块提取所有候选实体，随后采用集成学习模型预测各实体显著性分数（0-5分），最终按分数阈值筛选目标实体。针对不同应用场景，建议：摘要生成任务关注top3显著实体（分数≥3），信息检索系统可设置分数≥4为高置信结果。评估时推荐组合Spearman's ρ（衡量排序一致性）和RMSE（评估分数偏差）指标，对抽象实体类型需额外人工校验。数据集提供预训练模型权重和人工校验的开发/测试集，支持零样本评估与微调训练两种模式。

背景与挑战

背景概述

GUM-SAGE数据集由乔治城大学语言学系的Jessica Lin和Amir Zeldes于2025年提出，旨在解决文本中实体显著性预测的梯度评分问题。该数据集基于开放的GUM语料库，涵盖了12种不同风格的英语文本，包括口语和书面语。其核心研究问题是通过结合主观显著性判断和基于摘要的方法，提供一种既能保持梯度评分又能确保一致性的实体显著性预测方法。GUM-SAGE通过为每个文档收集多个摘要，并基于实体在这些摘要中的出现频率计算显著性分数，显著提升了与人类标注的一致性，并在相关任务中优于现有技术，包括大型语言模型。

当前挑战

GUM-SAGE数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，实体显著性预测任务本身具有渐进性和主观性，人类标注的一致性较低，例如在现有数据集中，标注者的一致性仅达到63%。在构建过程中，挑战包括需要高质量的多摘要生成，这在实际应用中可能难以扩展；此外，实体对齐过程复杂，涉及多种方法（如字符串匹配、核心ference模型和大型语言模型）的结合，以确保准确性和一致性。尽管通过集成学习方法显著提升了性能，但在处理抽象实体或非结构化文本（如对话和博客）时，模型的性能仍有待提升。

常用场景

经典使用场景

GUM-SAGE数据集在自然语言处理领域中被广泛应用于实体显著性预测任务。该数据集通过结合多篇摘要的方法，为文本中的实体分配梯度显著性分数，从而解决了传统方法中二分类标签的局限性。在学术研究中，GUM-SAGE常用于训练和评估模型在新闻分析、文本摘要和信息检索等任务中的性能，特别是在需要识别和排序文本中关键实体的场景中。

衍生相关工作

GUM-SAGE数据集的推出催生了一系列相关研究，特别是在实体显著性预测和多摘要对齐技术方面。例如，基于该数据集的研究提出了多种改进的实体对齐方法，如基于规则的方法、NLP流水线以及基于大型语言模型的提示方法。此外，该数据集还被用于评估不同模型在实体显著性预测任务中的性能，推动了相关算法的优化和创新。

数据集最近研究