SQuALITY

Name: SQuALITY
Creator: 纽约大学
Published: 2022-05-24 01:02:07
License: 暂无描述

arXiv2022-05-24 更新2024-06-21 收录

下载链接：

https://github.com/nyu-mll/SQuALITY

下载链接

链接失效反馈

官方服务：

资源简介：

SQuALITY是由纽约大学创建的一个专注于长文档摘要生成的数据集。该数据集通过聘请高素质的合同工阅读故事并从零开始编写原创摘要来构建，每个文档收集五个摘要，第一个提供概览，后续四个针对特定问题。SQuALITY基于与多选题数据集QuALITY相同的公共领域短故事构建，旨在为长上下文文本生成模型提供挑战性基准。数据集包含100个故事，500个问题，以及2000个摘要，适用于问题聚焦的抽象摘要任务，旨在解决现有自动评估指标在质量评估上的不足。

SQuALITY is a dataset focused on long-document summarization developed by New York University. It is constructed by hiring highly qualified contract workers to read short stories and write original summaries from scratch. For each story, five summaries are collected: the first provides a general overview, while the remaining four target specific questions. Built upon the same public-domain short stories as the multiple-choice dataset QuALITY, SQuALITY aims to provide a challenging benchmark for long-context text generation models. The dataset contains 100 stories, 500 questions and 2000 summaries, which is suitable for question-focused abstract summarization tasks, and is designed to address the shortcomings of existing automatic evaluation metrics in quality assessment.

提供机构：

纽约大学

创建时间：

2022-05-24

搜集汇总

数据集介绍

构建方式

在长文档摘要领域，现有数据集常面临技术领域难以处理或摘要不忠实的问题。SQuALITY数据集采用了一种更为直接但成本较高的构建方法：聘请专业写手阅读公共领域的科幻短篇故事，并从头撰写原创摘要。为分摊阅读成本，每个故事收集五份摘要，其中一份为整体概述，其余四份针对特定问题。构建过程包括写手设计问题、多人撰写答案，并通过同行评审和奖励机制确保数据质量，最终形成包含100个故事、500个问题和2000份摘要的高质量数据集。

使用方法

SQuALITY数据集适用于训练和评估长文档摘要模型，尤其关注问题聚焦的摘要任务。研究人员可将故事与问题作为输入，训练模型生成对应摘要，并利用多参考摘要进行自动评估。然而，现有自动评估指标如ROUGE与人类质量判断相关性较弱，因此建议结合人类评估，通过让评估者阅读故事并比较模型输出与人类摘要，来更准确地衡量系统性能。数据集还支持开发考虑摘要多样性的新评估方法，推动可控文本生成和长文本理解的研究进展。

背景与挑战

背景概述

SQuALITY数据集由纽约大学的研究团队于2022年构建，旨在为长文档摘要任务提供高质量基准。该数据集聚焦于问答导向的抽象摘要，其核心研究问题在于解决现有摘要数据集中普遍存在的领域局限、摘要不忠实及许可限制等缺陷。研究团队摒弃了传统的启发式摘要提取或自然发生摘要抓取方法，转而采用雇佣专业撰稿人从头阅读并撰写原创摘要的众包协议。数据集基于公有领域的科幻短篇小说构建，每篇文档对应五个问题，每个问题由四位撰稿人独立撰写摘要，从而形成多参考摘要集合。SQuALITY的推出显著提升了长文本生成模型的评估标准，并为可控文本生成研究提供了关键资源。

当前挑战

SQuALITY数据集主要应对两大挑战：其一，在领域问题层面，它致力于解决长文档问答导向摘要的评估难题，该任务要求模型深入理解叙事文本的整体结构与细节关联，并生成既忠实又全面的多角度摘要，这对现有模型的上下文处理与信息整合能力提出了严峻考验。其二，在构建过程中，研究团队面临高昂的众包成本与质量管控的双重压力。为确保摘要的准确性与多样性，他们设计了复杂的撰稿与交叉评审流程，并需平衡阅读时间摊销与摘要质量保障，同时还要处理不同撰稿人群体的协作与激励问题，这些因素共同构成了数据集构建的核心挑战。

常用场景

经典使用场景

在自然语言处理领域，SQuALITY数据集为长文档摘要生成任务提供了独特的评估基准。该数据集通过雇佣专业写手阅读科幻短篇故事并撰写问题导向的摘要，构建了多参考、高质量的长文本摘要语料。其经典使用场景聚焦于测试模型在理解复杂叙事结构、提取跨段落信息以及生成连贯抽象摘要方面的能力，尤其适用于评估模型对长文档的深度语义理解和信息压缩技术。

解决学术问题

SQuALITY有效解决了传统摘要数据集中存在的领域局限、摘要真实性不足以及评估指标不可靠等学术难题。通过人工构建的摘要，该数据集避免了启发式方法导致的摘要失真问题，同时其基于公共领域故事的设定消除了技术术语和版权限制对评估的干扰。该数据集为研究社区提供了检验摘要模型在长文本、多角度摘要任务中性能的可靠平台，推动了自动摘要评估方法的发展。

实际应用

在实际应用中，SQuALITY数据集为开发智能文档处理系统提供了关键训练资源。其问题导向的摘要格式可应用于教育领域的阅读理解辅助工具、法律文档的关键信息提取系统以及企业报告的多维度摘要生成。该数据集支持构建能够根据用户特定问题生成定制化摘要的智能系统，提升了信息检索和知识管理的效率。

数据集最近研究