CLIPPER
收藏arXiv2025-02-21 更新2025-02-22 收录
下载链接:
https://github.com/chtmp223/CLIPPER
下载链接
链接失效反馈官方服务:
资源简介:
CLIPPER数据集是由马里兰大学帕克分校和麻省理工学院的研究人员创建的,包含19K条关于公共领域小说书籍的合成索赔。该数据集通过两阶段的压缩方法生成:首先将书籍压缩成章节概要和书籍摘要,然后基于这些压缩表征生成真实/虚假的索赔和相应的思维链。数据集旨在用于叙事索赔验证任务,以解决长文本情境下的推理问题。
The CLIPPER dataset was created by researchers from the University of Maryland, College Park and the Massachusetts Institute of Technology. It contains 19K synthetic claims about public-domain fictional books. This dataset is generated via a two-stage compression pipeline: first, books are compressed into chapter summaries and book abstracts, then authentic and fake claims along with their corresponding chain-of-thoughts are generated based on these compressed representations. The dataset is intended for the narrative claim verification task, aiming to address reasoning problems in long-text scenarios.
提供机构:
马里兰大学帕克分校,麻省理工学院
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
CLIPPER 数据集的构建过程分为两个主要阶段。首先,利用大型语言模型(LLM)将长篇文档压缩成章节大纲和书籍摘要,这些中间表示包含了重要的情节和描述。然后,基于这些压缩后的叙事,LLM 被提示生成复杂的声明和相应的思维链。这种方法有效地降低了噪声,并提高了生成解释的根基性,同时成本大约降低了一半。
特点
CLIPPER 数据集的特点在于其生成的高质量合成数据,这些数据专为叙事声明验证任务设计,该任务要求对整本书籍进行推理以验证给定的声明。数据集包含 19K 个关于公共领域虚构书籍的合成声明及其源文本和思维链推理。与直接从书籍原始文本生成声明的简单方法相比,CLIPPER 生成的声明更加有效、有根据和复杂。
使用方法
CLIPPER 数据集的使用方法包括对开放权重模型进行微调,以提高叙事声明验证和其他叙事理解任务的性能。通过在 CLIPPER 数据集上微调模型,可以显著提高模型在长文本推理和叙事理解方面的能力。此外,数据集的构建过程也可以作为其他长文本任务的数据生成管道的参考。
背景与挑战
背景概述
随着语言模型(LLM)的不断发展,对于高质量合成数据的依赖日益增加。CLIPPER数据集应运而生,旨在通过压缩技术生成适用于长上下文推理任务的合成数据。该数据集由马里兰大学帕克分校和马萨诸塞大学阿默斯特分校的研究人员共同开发,主要针对叙事断言验证任务。该任务要求模型在理解整本书的基础上,判断关于书的断言是否正确。CLIPPER通过将书籍压缩成章节概述和书籍摘要,再利用这些中间表示生成复杂的断言和相关思维链,有效解决了直接从原始文本生成断言时产生的噪声和错误问题。CLIPPER数据集的创建不仅提高了叙事断言验证的准确性,还在NoCha排行榜上为小于10B模型的性能设定了新的基准,对相关领域产生了深远的影响。
当前挑战
CLIPPER数据集面临的挑战主要包括:1)长上下文推理任务的复杂性:生成高质量的合成数据对于复杂的推理任务仍然是一个挑战,特别是对于那些需要全局推理的任务。2)合成数据的质量控制:在生成合成数据时,如何确保数据的质量和有效性是一个关键问题。CLIPPER通过使用压缩技术来减少噪声并提高数据的真实性,但仍然需要进一步的研究来改进数据生成过程。3)模型训练和评估:虽然CLIPPER数据集提高了模型在叙事断言验证任务上的性能,但与封闭式LLM相比,性能差距仍然很大。如何训练更大的模型以进一步提高推理能力,并缩小与封闭式LLM之间的差距,是未来研究的重要方向。
常用场景
经典使用场景
CLIPPER 数据集主要应用于叙事性主张验证任务,该任务要求模型对整本书的内容进行推理以验证给定的主张。CLIPPER 通过压缩原始书籍文本,生成章节概述和书籍摘要,然后基于这些中间表示来生成复杂的主张和相应的思维链。这种方法相较于直接从原始书籍文本生成主张,能够显著减少噪声并提高生成主张的有效性和复杂性。
解决学术问题
CLIPPER 数据集解决了在长文本推理任务中生成高质量合成数据的挑战。传统的合成数据生成方法在处理长文本时容易产生噪声大、不接地气的主张。CLIPPER 通过压缩文本并使用压缩后的表示来生成主张,有效提高了主张的质量和有效性。此外,CLIPPER 还解决了长文本推理任务中模型推理能力不足的问题,通过在合成数据上进行微调,使得模型在叙事性主张验证任务上的性能得到了显著提升。
衍生相关工作
CLIPPER 数据集的提出推动了长文本推理领域的研究。基于 CLIPPER 的数据生成方法,研究者们可以探索如何更好地训练模型以提高其在长文本推理任务上的性能。此外,CLIPPER 的数据生成方法也为其他需要长文本推理的任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



