five

PRELUDE

收藏
arXiv2025-08-14 更新2025-08-15 收录
下载链接:
https://gorov.github.io/prelude
下载链接
链接失效反馈
官方服务:
资源简介:
PRELUDE数据集是一个用于评估模型在长文本上下文中理解能力的数据集。它通过判断一个角色前传故事与原著故事的一致性来设计任务,要求模型进行全局理解和深度推理。数据集包含了40本书,共795个实例,涉及英语和中文两种语言。该数据集的创建过程由人类专家完成,他们对原著故事进行了多次阅读和文学分析,并按照预定义的标签进行标注。PRELUDE数据集旨在解决现有长文本理解评估基准的局限性,例如避免基于记忆的捷径,鼓励全局依赖和深度推理,以及展示人机差距。该数据集的应用领域包括但不限于多文档分析、个人助理、自主代理和代码库级别的编码工具。

The PRELUDE dataset is a benchmark for evaluating the ability of long contextual understanding. The dataset contains approximately 1000 examples, each consisting of a hypothetical pre-story that requires the model to judge its consistency with the original story. The dataset demands that models possess global understanding and deep reasoning capabilities, as well as the ability to integrate dispersed evidence within the narrative. Experimental results indicate that the state-of-the-art language models currently underperform on the PRELUDE task by more than 15% compared to human performance, with a gap in inference accuracy exceeding 30%. This suggests that the PRELUDE dataset is effective in assessing models' long contextual understanding and reasoning abilities, and provides an important direction for future research.
提供机构:
腾讯微信人工智能实验室, 香港科技大学, 香港中文大学, 新泽西理工学院
创建时间:
2025-08-13
原始信息汇总

PRELUDE 数据集概述

数据集简介

  • 名称: PRELUDE
  • 任务类型: 长文本理解与推理评估基准
  • 核心任务: 判断角色前传故事是否与原作正典叙事一致
  • 特点:
    • 需要全局理解和深度推理
    • 88%的实例需要整合叙事中多个部分的证据
    • 无法通过简单检索网络信息解决

研究关键发现

  1. 模型表现:

    • 最先进LLM模型(上下文学习/RAG/领域训练)和商业DeepResearch服务表现落后人类>15%
    • 模型存在正确答案但推理错误现象,推理准确率比人类低30%以上
  2. 推理能力观察:

    • LLM通用推理能力的提升不一定带来长文本推理能力的改善
    • 提供上下文时出现显著性能下降

基准设计标准

  1. 超越记忆: 必须防止仅通过记忆解决问题
  2. 全局依赖: 需要聚合分散在全文的证据
  3. 推理深度: 需要多证据综合和多步推理
  4. 人机差距: 应显示显著的人机性能差距
  5. 超越摘要: 需要关注超越高层抽象的细粒度细节

与现有基准对比

  • 比现有故事理解基准提出更强要求
  • 重点评估真实的长文本理解能力而非检索能力
搜集汇总
数据集介绍
main_image_url
构建方式
PRELUDE数据集的构建过程体现了严谨的学术设计理念。研究团队首先通过DeepSeek-R1和GPT-4o生成虚构角色前传假设,随后由文学专业背景的标注者对13部跨体裁文学作品中的40个角色进行精细标注。标注过程采用三级矛盾判定体系(局部矛盾/全局矛盾I型II型)和两级一致性分类(核心/无关),并设置严格的标注规则以控制主观偏差。最终构建的795个样本均需通过双盲标注验证,Kappa一致性系数达0.7828,确保了数据质量。
特点
该数据集具有三个显著特征:首先,88%的样本需要整合叙事文本中非连续出现的证据,强制模型进行全局推理;其次,通过生成训练数据中不存在的前传假设,有效规避了LLMs的参数记忆问题;最后,样本涵盖中英双语及8种文学体裁,包含人物动机分析(31%)、时间线验证(42%)和风格一致性(27%)等多元任务维度。特别设计的矛盾类型标签体系为模型错误分析提供了细粒度评估框架。
使用方法
使用PRELUDE需遵循标准化评估协议:将完整文学作品分割为500token的连续块,采用Qwen3-Embedding-8B模型检索Top40相关段落作为输入。评估时建议同时报告答案准确率(82%人类基线)和推理链正确率(79%人类基线),重点关注模型在全局矛盾样本(占35%)上的表现。对于中文样本需注意古典文学特有的隐喻表达,建议配合提供的标注流程图进行错误归因分析。
背景与挑战
背景概述
PRELUDE是由WeChat AI、Tencent、HKUST、CUHK和NJIT等机构的研究团队于2025年推出的一个专注于长文本全局理解和深度推理的基准测试数据集。该数据集的核心研究问题在于评估模型对虚构人物前传故事与原著叙事一致性的判断能力,旨在解决现有长文本理解基准测试中存在的记忆依赖、浅层推理和局部依赖等局限性。PRELUDE的构建基于13部跨语言、跨体裁的文学作品,通过专家标注的795个实例,为自然语言处理领域的长文本推理研究提供了新的评估标准。
当前挑战
PRELUDE面临的挑战主要体现在两个方面:领域问题层面,该数据集针对长文本全局推理这一核心难题,要求模型整合散布在长文本中的非直接关联证据(88%的实例需要多部分证据支持),并解决现有模型在深层因果推理(如非即时性因果关系分析)上的不足;构建过程层面,研究团队需克服文学叙事的主观性带来的标注分歧(Kappa=0.7828),通过设计精细的标注规则(如排除改编作品干扰、设定严格的时间连续性假设)来保证标注质量,同时确保生成的前传假设既具有创造性又严格遵循原著叙事逻辑。
常用场景
经典使用场景
PRELUDE数据集通过评估模型对虚构角色前传故事与原著叙事一致性的判断能力,为长文本理解与全局推理任务提供了标准化测试平台。其典型应用场景包括测试大语言模型在跨章节信息整合、人物行为动机追溯及隐含逻辑矛盾识别等方面的表现,尤其适用于需要结合分散在数十万token上下文中的多源证据进行深度推理的复杂任务。
实际应用
在实际应用层面,PRELUDE可优化智能阅读助手对文学作品的解析能力,提升数字人文研究中的人物关系网络构建精度。其任务范式已被应用于教育领域的批判性思维训练系统,通过分析前传假设的合理性培养学生的逻辑推理能力。商业场景中,该评估方法为法律合同分析、医疗记录梳理等需要长文档理解的服务提供了质量验证标准。
衍生相关工作
基于PRELUDE的评估框架,后续研究衍生出多个创新方向:MoYu等人开发的SITEmb系统改进了语义关联检索技术;Wu等人提出的LongMEMEval将角色记忆测试扩展至多轮对话场景;Zhang团队的∞Bench则借鉴其全局依赖评估思路,构建了超长代码库的理解基准。这些工作共同推动了长上下文建模从单纯的长度扩展向质量验证的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作