USB

Name: USB
Creator: 卡内基梅隆大学
Published: 2023-12-04 23:53:50
License: 暂无描述

arXiv2023-12-04 更新2024-06-21 收录

下载链接：

https://github.com/kukrishna/usb

下载链接

链接失效反馈

官方服务：

资源简介：

USB数据集是由卡内基梅隆大学和东北大学合作创建，包含1988个从维基百科中提取的文档，用于支持8种不同的文本摘要任务。数据集涵盖6个领域，包括传记、公司、学校、报纸、地标和灾难。创建过程中，研究人员首先从维基百科下载英文文章，然后使用Wikiextractor工具提取文章，去除表格和列表，保留部分头信息。数据集主要用于训练和评估模型在提取证据、纠正事实错误和生成特定主题摘要等方面的能力，旨在解决文本摘要中的关键问题，如事实正确性和可控性。

The USB Dataset was co-created by Carnegie Mellon University and Northeastern University. It contains 1988 documents extracted from Wikipedia to support 8 distinct text summarization tasks. The dataset covers 6 domains including biography, companies, schools, newspapers, landmarks and disasters. During the creation process, researchers first downloaded English articles from Wikipedia, then used the Wikiextractor tool to extract the articles, removing tables and lists while retaining partial header information. This dataset is primarily used to train and evaluate models' capabilities in evidence extraction, factual error correction and targeted topic summary generation, and aims to address key challenges in text summarization such as factual correctness and controllability.

提供机构：

卡内基梅隆大学

创建时间：

2023-05-24

搜集汇总

数据集介绍

构建方式

在文本摘要研究领域，构建高质量且具备丰富标注的数据集对于推动模型在可控性与可靠性方面的进展至关重要。USB数据集以维基百科文章为原始素材，通过精心设计的流程构建而成。研究团队首先从2022年7月的英文维基百科数据转储中提取文章，并依据类别筛选器选取了涵盖人物传记、公司、学校、报纸、地标和灾难等六个领域的文档。对于每篇文章，将其概述部分视为初始摘要，其余部分作为源文本，形成初步的文档-摘要对。随后，通过亚马逊众包平台招募标注者，执行两项核心任务：为摘要中的每个句子在源文本中寻找并标注支撑证据，同时删除摘要中缺乏证据支持的部分。为确保标注质量，研究实施了严格的工人筛选与资格认证流程，并利用训练好的模型对部分标注结果进行了自动化验证与人工复核，最终形成了包含1988个高质量标注样本的数据集。

特点

USB数据集作为统一的摘要评测基准，其显著特点在于支持八项相互关联的摘要子任务，全面覆盖了摘要生成、可控性与事实性评估等多个关键维度。这些任务包括抽取式与生成式摘要、基于主题的摘要、多句子压缩、证据提取、事实性分类、未支持跨度识别以及事实错误修正。数据集源自六个不同领域，为跨域分析提供了天然基础。其标注不仅提供了最终的修正后摘要，还精确标注了每个摘要句子所对应的源文本证据句子，以及被删除的未支持文本跨度，为训练和评估模型在事实一致性、证据追溯等复杂能力上提供了宝贵资源。与依赖启发式方法生成合成数据的研究相比，USB全部基于高质量人工标注，确保了数据的可靠性与准确性。

使用方法

USB数据集为训练和评估文本摘要模型提供了多功能的平台。研究人员可根据具体的研究目标，利用其丰富的标注信息构建不同任务的训练与测试集。例如，对于摘要生成任务（如ABS、EXT、TOPIC、COMP），可使用源文档和对应的修正后摘要进行模型训练；对于事实性相关任务（如FAC、FIX、UNSUP），则可以利用标注的“编辑前-编辑后”摘要句子对及其对应的证据句子。数据集已按领域划分了训练、验证和测试集，便于进行域内与跨域性能评估。在模型评估方面，除了使用ROUGE等自动指标外，该数据集尤其适合评估模型在事实准确性、证据支持度等更细粒度、更贴近实际应用需求的性能。研究已表明，即使在训练数据量远小于启发式合成数据的情况下，基于USB人工标注训练的模型也能取得更优的性能。

背景与挑战

背景概述

在自然语言处理领域，文本摘要技术历经二十余载发展，已成为推动信息浓缩与知识提炼的核心研究方向。随着模型生成能力的显著提升，摘要系统的可控性、事实准确性及可解释性等辅助属性日益受到学界关注。然而，现有摘要评测基准多聚焦于生成与参考摘要的相似度，缺乏对上述关键维度的系统化评估。为此，卡内基梅隆大学与东北大学的研究团队于2023年共同推出了USB（Unified Summarization Benchmark）基准。该基准基于维基百科文章构建，涵盖传记、企业、学校等六个领域，并通过众包标注提供了支持八项互联任务的丰富注释，包括抽取式与生成式摘要、主题摘要、事实性分类与修正等。USB的创立旨在填补现有评测体系的空白，为摘要模型的全面能力评估提供标准化平台，进而推动摘要技术向更可靠、更可控的方向演进。

当前挑战

USB基准所应对的核心领域挑战在于突破传统摘要评测仅关注内容相似度的局限，系统化地解决摘要生成中的可控性、事实一致性与证据支撑等关键问题。具体而言，其构建过程面临多重挑战：首先，从维基百科文章中构建高质量的文档-摘要对需确保摘要内容完全得到源文档的证据支持，这要求设计精细的标注流程以识别并修正无证据支撑的摘要部分。其次，标注任务本身复杂度高，涉及证据查找、事实性判断与文本编辑等多个环节，对标注者的专业性与一致性提出了严峻考验。此外，基准需涵盖多样化的领域与任务，以支持跨领域分析与模型泛化能力研究，这要求数据采样与标注策略在广度与深度间取得平衡。最后，如何有效验证与提升众包标注的质量，避免噪声干扰，亦是保障基准可靠性的重要挑战。

常用场景

经典使用场景

在自然语言处理领域，文本摘要技术长期面临可控性与事实性等关键挑战。USB数据集通过整合八项相互关联的任务，为研究者提供了一个统一且多功能的评估平台。该数据集最经典的使用场景在于全面评估模型在提取式摘要、抽象式摘要、主题导向摘要、多句子压缩、证据提取、事实性分类、未支持跨度识别及事实错误修正等方面的综合能力。其基于维基百科的多领域设计，使得模型能够在传记、公司、学校、灾难等六个不同领域中进行跨域性能分析，从而深入探究模型在多样化语境下的泛化能力与稳定性。

衍生相关工作

USB数据集的发布催生了一系列围绕摘要可控性与事实性的重要研究工作。基于其提供的精细标注，研究者们开发了多种专注于事实性验证与错误修正的模型架构，例如改进的序列到序列模型在事实性分类与修正任务上取得了显著进展。该数据集也促进了跨领域迁移学习策略的探索，相关研究深入分析了训练数据规模与领域特异性对不同摘要任务影响的权衡关系。此外，其高质量人工标注与启发式标注的对比分析，推动了数据标注方法论的发展，促使后续研究更加重视小规模精准标注的价值，而非盲目追求大规模噪声数据，对摘要乃至整个自然语言生成领域的数据构建范式产生了深远影响。

数据集最近研究