PRELUDE

Hugging Face2025-08-14 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/ttchungc/PRELUDE

下载链接

链接失效反馈

官方服务：

资源简介：

PRELUDE是一个设计用于要求对长上下文进行全局理解和推理的基准数据集。它包含问题回答、文本生成和文本分类等任务类别，适用于长内容推理、叙事推理等场景，并支持中文和英文两种语言。

PRELUDE is a benchmark dataset designed for tasks requiring global understanding and reasoning over long contexts. It covers task categories including question answering, text generation and text classification, is applicable to scenarios such as long-context reasoning and narrative reasoning, and supports both Chinese and English languages.

创建时间：

2025-08-13

原始信息汇总

PRELUDE 数据集概述

基本信息

数据集名称: PRELUDE
语言: 中文 (zh)、英文 (en)
任务类别: 问答、文本生成、文本分类
标签: 问答、长内容推理、叙事推理、双语
数据规模: 小于1K样本 (n<1K)
数据集配置:
- subset.parquet
- all.parquet
- public.parquet

数据集描述

主页: https://gorov.github.io/prelude/
论文: https://arxiv.org/pdf/2508.09848
排行榜: https://gorov.github.io/prelude/leaderboard.html
联系人: moyumyu@global.tencent.com

数据集特点

设计目的: 需要全局理解和长上下文推理的基准测试
主要应用: 问答、文本生成、文本分类任务

作者信息

Mo Yu
Tsz Ting Chung
Chulun Zhou
Tong Li
Rui Lu
Jiangnan Li
Liyan Xu
Haoshu Lu
Ning Zhang
Jing Li
Jie Zhou

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，长文本理解与推理能力的评估一直面临挑战。PRELUDE数据集通过精心设计的构建流程，采用双语平行语料收集策略，从多样化来源筛选具有复杂叙事结构的文本内容。研究团队运用分层抽样方法，确保数据覆盖不同长度和难度的文本片段，并经过严格的人工标注与专家验证流程，最终形成包含三个子集的标准化评估基准。

特点

作为专注于长文本全局理解与推理的基准测试，PRELUDE最显著的特征在于其双语架构和深度叙事设计。数据集包含中英双语平行语料，每篇文本均经过结构性处理以考察跨段落推理能力。其独特的叙事线索编排要求模型必须建立长距离依赖关系，而精心设计的干扰项则有效检验了模型对细节的捕捉精度。数据规模虽不足千例，但每个样本都蕴含丰富的语言学特征和逻辑关系。

使用方法

该数据集为研究者提供了标准化的评估框架，用户可通过加载不同子集文件进行多维度测试。subset.parquet适用于快速验证，all.parquet包含完整测试项目，public.parquet则对应公开基准任务。使用时应遵循论文规定的评估协议，重点关注模型在跨语言、跨段落推理任务中的表现。对于长文本处理系统的开发，建议结合官方提供的评分标准进行细粒度错误分析。

背景与挑战

背景概述

PRELUDE数据集是由腾讯等机构的研究团队于2024年推出的双语长文本理解基准测试集，其核心研究聚焦于大语言模型在全局理解和长上下文推理方面的能力评估。该数据集由Mo Yu等学者领衔构建，通过精心设计的问答、文本生成和分类任务，旨在填补当前自然语言处理领域对复杂叙事结构和跨篇章推理能力量化评估的空白。作为首个要求模型同时处理中英文长文本的基准，PRELUDE为衡量模型在医疗、法律等专业领域的深层语义理解提供了标准化测试平台，对推动语言模型向更高阶认知能力发展具有重要价值。

当前挑战

该数据集主要解决长文本全局推理中的三大核心挑战：模型对分散在多段落关键信息的整合能力、跨文化语境下的双语理解一致性，以及超长上下文依赖关系的建模瓶颈。在构建过程中，研究团队面临标注质量控制的难题，包括专业领域知识的准确标注、中英文平行语料的语义对齐，以及避免叙事连贯性被分段处理破坏的技术障碍。这些挑战使得数据集的构建需要语言学专家与算法工程师的深度协作，并催生了新型的动态注意力标注方法。

常用场景

经典使用场景

在自然语言处理领域，PRELUDE数据集作为专门设计用于评估模型在长文本上下文中的全局理解和推理能力的基准，其经典使用场景主要集中在问答系统、文本生成和文本分类任务。研究者通过该数据集能够深入探索模型处理复杂叙事结构和跨段落推理的能力，特别是在双语环境下对中英文混合文本的解析。

衍生相关工作

基于PRELUDE数据集已衍生出多项重要研究，包括分层注意力机制优化、长文本表示学习方法以及跨语言推理模型架构创新。该数据集启发的系列工作发表在ACL、EMNLP等顶级会议上，其中部分成果已应用于改进GPT系列和BERT等主流预训练模型的长文本处理能力。

数据集最近研究