long-context RELiC

Name: long-context RELiC
Creator: UMass Amherst University of Maryland, College Park
Published: 2025-06-04 01:19:45
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/katherinethai/long_context_relic

下载链接

链接失效反馈

官方服务：

资源简介：

long-context RELiC数据集是一个高质量的子集，包含292个经过严格筛选和人工验证的例子。每个例子包含来自文学作品的全文本和一段文学批评，其中缺少一个引用。这个数据集旨在评估大型语言模型在文学证据检索任务中的表现，要求模型生成缺失的引用。该数据集的创建是为了促进文学分析与自然语言处理之间的研究。

The long-context RELiC dataset is a high-quality subset containing 292 rigorously screened and manually verified examples. Each example consists of the full text of a literary work and a segment of literary criticism with one reference missing. This dataset is designed to evaluate the performance of Large Language Models (LLMs) on literary evidence retrieval tasks, where models are required to generate the missing reference. It was created to advance research at the intersection of literary analysis and Natural Language Processing (NLP).

提供机构：

UMass Amherst University of Maryland, College Park

创建时间：

2025-06-04

搜集汇总

数据集介绍

构建方式

long-context RELiC数据集通过重构RELiC原始数据集构建而成，专注于评估长上下文语言模型在文学证据检索任务中的表现。研究团队采用多阶段过滤流程，包括自动化清洗、基于GPT-4O-MINI的质量筛选以及人工专家验证，最终精选出292个高质量样本。每个样本包含完整原著文本和带有缺失引文的文学评论片段，要求模型通过全局叙事推理和细粒度文本分析来生成缺失引文。

特点

该数据集具有三个显著特征：首先，样本均来自公共领域的经典文学作品，涵盖《了不起的盖茨比》等7部名著，平均每部作品提供36个测试案例；其次，特别标注了40个人工评估样本和39个需要细读技巧的样本子集；最后，所有引文长度严格控制在5个连续句子内，确保任务难度与真实文学分析场景相匹配。数据集平均上下文长度达85,526个token，充分考验模型的长文本处理能力。

使用方法

使用该数据集时，研究者需将完整原著文本与缺失引文的文学评论片段同时输入模型，采用零样本提示方式要求模型生成缺失引文。评估提供两种提示策略：简单提示仅要求生成引文，解释提示则需模型先提供推理依据。通过模糊匹配算法（阈值90）比对生成内容与真实引文，计算准确率指标。数据集特别适用于测评模型在需要全局叙事理解和局部文本分析相结合的复杂推理任务中的表现。

背景与挑战

背景概述

long-context RELiC数据集由Katherine Thai和Mohit Iyyer于2025年提出，旨在探索现代长上下文语言模型在文学证据检索任务中的表现。该数据集基于Thai等人2022年提出的RELiC数据集构建，专注于文学分析中的证据检索问题，即要求模型从整本文学作品中检索出支持文学批评论述的缺失引文。这一任务不仅需要模型具备全局叙事推理能力，还需进行细致的文本分析，模拟了人类文学分析的过程。数据集包含292个经过严格筛选和人工验证的高质量样本，涵盖了多部经典文学作品，为自然语言处理与文学分析的交叉研究提供了重要基准。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，文学证据检索要求模型理解复杂的文学信号，如情节、潜台词和文学手法，而现有模型在捕捉这些细微差别方面仍存在困难；在构建过程层面，数据清洗和过滤面临诸多挑战，包括OCR伪影的去除、非文学分析样本的剔除、引文位置泄露的检测以及训练数据污染的规避。此外，模型普遍存在过度生成问题，且开源模型与闭源模型之间存在显著的性能差距，凸显了当前模型在解释性推理能力上的不足。

常用场景

经典使用场景

在文学分析与自然语言处理的交叉领域，long-context RELiC数据集为研究者提供了一个独特的基准测试平台。该数据集通过将整部文学作品与缺失引文的文学批评片段配对，要求语言模型在长上下文环境中完成引文检索任务。这种设置模拟了人类学者进行文学分析时的认知过程，既需要全局叙事理解能力，又需要细致入微的文本解读技巧。数据集精选的292个高质量样例，覆盖了《了不起的盖茨比》等经典著作，为评估模型在复杂文学推理任务中的表现建立了标准化测试环境。

解决学术问题

该数据集有效解决了文学计算分析中的核心挑战——如何量化评估模型对文学作品的深层次理解能力。通过引文检索任务的设计，研究者能够系统性地考察模型在叙事连贯性识别、潜台词解析、文学修辞把握等方面的表现。实验数据表明，顶尖闭源模型如GEMINI PRO 2.5已达到62.5%的准确率，超越人类专家水平，这为衡量语言模型的解释性推理能力提供了客观指标。同时，开源模型29.1%的准确率差距，揭示了文学理解领域仍存在亟待突破的技术瓶颈。

衍生相关工作

基于该数据集的研究已催生多个创新方向：Karpinska等人开发的NOCHA长文本基准扩展了多模态文学理解任务；Subbiah团队构建的STORYSUMM框架将证据检索与故事摘要相结合；Tian等人则探索了生成式模型在叙事连贯性评估中的应用。这些衍生工作共同推进了计算文学分析领域的发展，逐渐形成从证据检索到完整论证生成的技术链条。最新研究趋势表明，如何平衡模型生成效率与文学解释深度，已成为该领域最活跃的研究方向之一。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集