ZeroSCROLLS

Name: ZeroSCROLLS
Creator: 特拉维夫大学布劳恩宁计算机科学学院
Published: 2023-12-18 01:05:09
License: 暂无描述

arXiv2023-12-18 更新2024-06-21 收录

下载链接：

https://www.zero.scrolls-benchmark.com/

下载链接

链接失效反馈

官方服务：

资源简介：

ZeroSCROLLS是一个针对长文本自然语言理解的零样本基准，包含10个测试任务，每个任务都需要对不同类型的长文本进行推理。该数据集由特拉维夫大学布劳恩宁计算机科学学院创建，旨在评估模型在无监督学习情况下的表现。数据集内容丰富，包括政府报告、电视剧本、会议记录等多种类型的长文本数据。创建过程中，研究人员精心设计了任务和评估指标，确保数据集的实用性和准确性。ZeroSCROLLS主要用于研究长文本理解，特别是在零样本学习场景下的应用，旨在推动模型在处理长序列文本时的性能提升。

ZeroSCROLLS is a zero-shot benchmark for long-text natural language understanding, comprising 10 test tasks each requiring reasoning over distinct types of long texts. This dataset was developed by the Braunning School of Computer Science, Tel Aviv University, with the objective of evaluating model performance under unsupervised learning scenarios. It features a rich collection of long-text data across multiple categories, including government reports, TV scripts, meeting transcripts, and more. During the development process, researchers meticulously designed the tasks and evaluation metrics to ensure the dataset's practicality and accuracy. Primarily utilized for research on long-text understanding, particularly in zero-shot learning applications, ZeroSCROLLS aims to promote the enhancement of model performance when handling long-sequence texts.

提供机构：

特拉维夫大学布劳恩宁计算机科学学院

创建时间：

2023-05-24

搜集汇总

数据集介绍

构建方式

ZeroSCROLLS基准的构建源于对长文本零样本理解能力的系统性评估需求。该数据集整合了来自SCROLLS基准的六个现有任务，并新增了四个专门设计的数据集，包括情感聚合与书籍章节摘要排序两项创新性信息融合任务。构建过程中，研究人员从多个公开来源选取了涵盖政府报告、电视剧本、学术论文及文学作品等领域的文本，每项任务均限制在500个示例以内以控制评估成本。所有数据均经过清洗与格式化处理，统一为包含长文档、查询指令及期望输出格式的结构化样本，且仅提供测试集与小规模验证集，不包含训练数据，以严格遵循零样本评估范式。

使用方法

使用ZeroSCROLLS进行评估时，研究者需将模型置于严格的零样本设置下，即仅通过任务提示指令驱动模型生成响应，无需任何任务特定训练或示例演示。评估流程首先将长文本与结构化提示（含指令、上下文、查询及响应格式说明）输入模型，若文本超出模型上下文窗口则进行截断并添加明确提示。对于对话型模型（如ChatGPT与Claude），提示会适配为对话格式并添加特殊响应标记要求。模型输出后，采用各任务对应的自动评估指标（如ROUGE、F1、准确率、指数相似度等）计算分数，再跨任务取平均值得到总体性能得分。结果可提交至在线排行榜，以便与当前最优模型进行公开比较与趋势分析。

背景与挑战

背景概述

在大型语言模型迅猛发展的背景下，长文本理解能力成为衡量模型通用智能的关键维度。ZeroSCROLLS基准由特拉维夫大学与Meta AI的研究团队于2023年共同创建，旨在填补零样本长文本推理评估的空白。该基准在SCROLLS数据集基础上，整合了六个现有任务并引入了四个新颖任务，特别是设计了信息融合类挑战，如情感聚合与章节摘要排序。其核心研究问题聚焦于评估模型在无需任务特定训练数据的情况下，对政府报告、文学著作、学术论文等长序列进行深度理解和推理的能力。ZeroSCROLLS通过动态排行榜机制，持续推动着长文本处理领域的前沿探索，为模型在真实场景中的实用化提供了重要评估标准。

当前挑战

ZeroSCROLLS所针对的长文本理解领域，其核心挑战在于模型需在零样本条件下对冗长且结构复杂的文档进行精准信息抽取与逻辑推理。具体而言，在情感聚合与章节排序等新型任务中，模型必须跨多个分散文本片段进行上下文整合与比较，当前顶尖模型仅能勉强超越简单基线。数据构建过程中，研究团队面临如何从原始长文档中剥离位置提示信息、确保评估指标既简洁又可靠，以及平衡不同任务领域与文本长度的代表性等难题。此外，自动评估环节中，模型输出格式与指令要求之间的偏差常导致语义正确但格式不符的答案被低估，这揭示了当前模型在指令遵循与长程一致性生成方面仍存在显著缺陷。

常用场景

经典使用场景

在自然语言处理领域，长文本理解一直是模型能力评估的关键环节。ZeroSCROLLS作为零样本长文本理解基准，其经典使用场景在于系统评估大型语言模型在无需任务特定训练数据的情况下，对政府报告、电视剧本、会议记录及文学作品等多样化长文档进行摘要生成、问答及信息聚合的能力。该基准通过精心设计的自然提示，模拟了模型在真实环境中处理长篇内容的挑战，为研究者提供了一个标准化、可复现的测试平台。

解决学术问题

ZeroSCROLLS主要解决了长文本零样本理解中的若干核心学术问题。它填补了现有基准如HELM和BigBench在长序列评估上的空白，通过整合摘要、问答及新型聚合任务，系统考察模型在跨文档信息融合、多跳推理及格式遵循等方面的能力。该基准揭示了当前模型在情感聚合与章节排序等复杂任务上的显著不足，推动了针对长上下文建模、指令理解及提示工程的研究方向，为提升模型在零样本设置下的泛化性能提供了实证依据。

实际应用

在实际应用层面，ZeroSCROLLS所涵盖的任务与多种现实场景紧密相关。例如，政府报告摘要可辅助政策分析，会议记录查询摘要能提升企业决策效率，而基于文学作品的多跳问答则支持教育或娱乐领域的智能交互。此外，情感聚合任务可用于市场调研中的评论分析，章节排序则有助于数字出版中的内容组织。这些应用体现了大型语言模型在文档处理、知识管理及自动化服务中的潜在价值，为技术落地提供了评估基础。

数据集最近研究