tau/scrolls

Hugging Face2025-07-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tau/scrolls

下载链接

链接失效反馈

官方服务：

资源简介：

SCROLLS数据集是一个包含七个自然语言处理任务的数据集套件，旨在处理长文本信息综合。这些任务包括政府报告总结、电视剧剧本总结、基于查询的总结、叙事式问题回答、针对NLP论文的问题回答、多选题问题回答以及法律领域的自然语言推理。

SCROLLS is a suite of datasets consisting of seven natural language processing tasks designed to handle synthesis of information over long texts. These tasks include summarization of government reports, TV show scripts, query-based summarization, narrative question answering, question answering over NLP papers, multiple-choice question answering, and natural language inference in the legal domain.

提供机构：

tau

原始信息汇总

数据集卡片 for SCROLLS

概述

SCROLLS 是一个包含多个需要综合处理长文本数据集的套件。该基准包括七个自然语言处理任务，涵盖多个领域，包括摘要、问答和自然语言推理。

任务

SCROLLS 包含以下任务：

GovReport

GovReport 是一个摘要数据集，包含由国会研究服务部和美国政府问责局发布的关于各种国家政策问题的报告，每个文档都配有一个手工编写的执行摘要。这些报告及其摘要的长度超过其他流行的长文档摘要数据集中的对应文档；例如，GovReport 的文档大约是 Arxiv 和 PubMed 文档长度的 1.5 倍和 2.5 倍。

SummScreenFD

SummScreenFD 是一个电视节目领域的摘要数据集（例如《老友记》、《权力的游戏》）。给定特定剧集的剧本，目标是生成该剧集的回顾。原始数据集被分为两个互补的子集，基于社区贡献的剧本来源。对于 SCROLLS，我们使用 ForeverDreaming (FD) 子集，因为它包含 88 个不同的节目，比只有 10 个节目的 TV MegaSite (TMS) 子集更具多样性。

QMSum

QMSum 是一个基于查询的摘要数据集，包含来自多个领域的 232 个会议记录。该语料库涵盖了国际计算机科学研究所的学术小组会议及其摘要、设计遥控器的工业产品会议，以及威尔士和加拿大议会的委员会会议，涉及各种公共政策问题。标注者被要求编写关于会议内容的广泛查询以及关于某些主题或决策的具体问题，同时确保回答每个查询的相关文本至少跨越 200 个单词或 10 个轮次。

NarrativeQA

NarrativeQA 是一个基于整个书籍和电影剧本的问答数据集，来自 Project Gutenberg 和不同网站。标注者被给予从维基百科获得的书籍和剧本的摘要，并被要求生成问答对，结果是每个书籍和剧本大约有 30 个问答对。他们被鼓励用自己的话而不是复制，并避免提出是/否问题或关于演员的问题。每个问题由另一个标注者回答，为每个问题提供两个参考答案（除非两个答案相同）。

Qasper

Qasper 是一个基于从 Semantic Scholar Open Research Corpus (S2ORC) 筛选的 NLP 论文的问答数据集。问题由 NLP 从业者在仅阅读论文的标题和摘要后编写，而另一组 NLP 从业者在阅读整个文档后标注答案。Qasper 包含抽象、提取和是/否问题，以及无法回答的问题。

QuALITY

QuALITY 是一个基于从 Project Gutenberg、Open American National Corpus 等来源的文章和故事的多项选择问答数据集。经验丰富的作家编写问题和干扰项，并被激励编写可回答、明确的问题，以便正确回答这些问题，人类标注者必须阅读给定文档的大部分内容。参考答案然后通过标注者和作家答案之间的多数投票计算得出。为了衡量问题的难度，Pang 等人进行了一项速度验证过程，其中另一组标注者被要求在短时间内浏览文档后回答问题。结果，QuALITY 中的 50% 的问题被标记为困难，即在速度验证设置中，大多数标注者选择了错误的答案。

ContractNLI

ContractNLI 是一个法律领域的自然语言推理数据集。给定一个保密协议（前提），任务是预测一个特定的法律陈述（假设）是否从合同中被包含、不被包含（中性）或无法被包含（矛盾）。NDA 是在从电子数据收集、分析和检索系统 (EDGAR) 和 Google 进行简单过滤后手动挑选的。该数据集包含总共 607 个合同和 17 个独特的假设，这些假设被组合起来生成数据集的 10,319 个示例。

数据字段

基准中的所有数据集都采用相同的输入-输出格式：

input: 一个 string 特征。输入文档。
output: 一个 string 特征。目标。
id: 一个 string 特征。每个输入的唯一标识。
pid: 一个 string 特征。每个输入-输出对的唯一标识（在 NarrativeQA 和 Qasper 中可能与 id 不同，因为存在多个有效目标）。

引用

如果您使用 SCROLLS 数据，请确保引用所有原始数据集论文。

@inproceedings{shaham-etal-2022-scrolls, title = "{SCROLLS}: Standardized {C}ompa{R}ison Over Long Language Sequences", author = "Shaham, Uri and Segal, Elad and Ivgi, Maor and Efrat, Avia and Yoran, Ori and Haviv, Adi and Gupta, Ankit and Xiong, Wenhan and Geva, Mor and Berant, Jonathan and Levy, Omer", booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing", month = dec, year = "2022", address = "Abu Dhabi, United Arab Emirates", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2022.emnlp-main.823", pages = "12007--12021", }

搜集汇总

数据集介绍

背景与挑战

背景概述

SCROLLS是一个专注于长文本信息合成的多任务自然语言处理数据集套件，包含七个不同领域的任务，如摘要生成、问答和自然语言推理。数据集提供统一的数据格式，并附有详细的引用信息和相关研究论文。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集