longbench_synthetic_v4

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://huggingface.co/datasets/dac-research/longbench_synthetic_v4

下载链接

链接失效反馈

官方服务：

资源简介：

LongBench Synthetic V4 是一个合成数据集，旨在支持长文本处理任务。数据集包含五个子集：longbench_v2_multidoc_qa（多文档问答）、longbench_v2_singledoc_qa（单文档问答）、loogle_longdep_qa（长依赖问答）、loogle_shortdep_qa（短依赖问答）和 loogle_summarization（摘要生成）。每个子集都包含训练集和验证集，数据以 parquet 格式存储。数据集统计信息显示了每个子集的唯一上下文数量、样本行数以及不同长度区间的样本分布（如 8K、8-16K、16-32K 等），并提供了中位数、90% 分位数和最大 token 数量。该数据集由 Reiss Koh 于 2026 年 4 月使用 gemini-3-flash-preview 模型生成，适用于长文本问答和摘要生成等任务。

创建时间：

2026-04-29

原始信息汇总

数据集概述

数据集名称：LongBench Synthetic V4

数据集页面：https://huggingface.co/datasets/dac-research/longbench_synthetic_v4

创建者：Reiss Koh

生成模型：gemini-3-flash-preview

生成日期：2026年4月

数据集配置

该数据集包含以下5个子集配置，每个配置均提供训练集（train）和验证集（validation）分割，数据以Parquet格式存储：

longbench_v2_multidoc_qa — 多文档问答
longbench_v2_singledoc_qa — 单文档问答
loogle_longdep_qa — 长依赖问答
loogle_shortdep_qa — 短依赖问答
loogle_summarization — 摘要生成

数据集规模与统计

总独特上下文（Unique ctx）：984个
总样本行数（Sample rows）：9,516行
分词器：Qwen/Qwen3-14B

各子集详细统计

子集	独特上下文数	样本行数	8-16K	16-32K	32-64K	64-128K	>128K	中位数tokens	第90百分位tokens	最大值tokens
longbench_v2_multidoc_qa	123	984	104	152	264	152	312	61,425	270,817	960,383
longbench_v2_singledoc_qa	166	1,400	112	376	128	352	432	75,354	221,060	865,154
loogle_longdep_qa	140	1,101	158	391	547	5	0	33,230	44,972	83,038
loogle_shortdep_qa	105	1,951	468	1,293	190	0	0	19,643	32,268	57,819
loogle_summarization	510	4,080	1,368	2,440	224	32	16	17,680	29,469	287,065

统计说明：

上下文长度共分为6个桶（<8K，8-16K，16-32K，32-64K，64-128K，>128K），每个桶内数字表示落入该长度的样本行数。
所有子集均包含8K以上的样本，超过32K的长上下文样本主要集中于 longbench_v2_multidoc_qa、longbench_v2_singledoc_qa 和 loogle_longdep_qa 子集。
longbench_v2_multidoc_qa 和 longbench_v2_singledoc_qa 包含超过128K的超长上下文样本，最大tokens分别达到960,383和865,154。
loogle_summarization 拥有最多的独特上下文（510个）和样本行数（4,080行）。

搜集汇总

数据集介绍

构建方式

LongBench Synthetic V4 数据集由 Reiss Koh 于 2026 年 4 月创建，基于 Gemini-3-Flash-Preview 模型进行生成。该数据集涵盖五个子集：longbench_v2_multidoc_qa、longbench_v2_singledoc_qa、loogle_longdep_qa、loogle_shortdep_qa 以及 loogle_summarization，分别对应多文档问答、单文档问答、长依赖问答、短依赖问答和摘要生成任务。每个子集均划分为训练集和验证集，并以 Parquet 格式存储。构建过程中，通过精心设计的上下文与问题对，确保样本覆盖从 8K 至超过 128K 标记的广泛长度范围，其中长上下文占比显著，反映了对模型长程理解能力的深度考察。

特点

该数据集的核心特点在于其极致的上下文长度多样性，统计显示中位数标记数从约 17,680 到 75,354 不等，最大长度可达 960,383 标记，远超传统基准。独特的上下文数量达到 984 个，共衍生出 9,516 个样本行，每个上下文被多次复用并搭配不同问题，从而在有限上下文基础上扩展出丰富且富有挑战性的测试场景。子集设计覆盖问答与摘要两大典型长文本任务，尤其侧重于依赖复杂文档结构的深度推理能力，为评估长上下文语言模型提供了严苛且全面的评测平台。

使用方法

用户可通过 Hugging Face Datasets 库便捷加载该数据集，支持按子集名称如 'longbench_v2_multidoc_qa' 指定配置，并选择 train 或 validation 分片进行使用。数据以 Parquet 格式存储，高效支持大规模样本的读取与处理，兼容主流深度学习框架。建议用户在评估模型时，优先关注长上下文（如超过 32K 标记）子集的表现，以便全面衡量模型在复杂多文档场景下的检索、推理与归纳能力。此外，数据集的构建细节和生成模型信息已明确提供，可用于复现或扩展研究。

背景与挑战

背景概述

在自然语言处理领域，长文本理解与推理能力的评估一直是研究的前沿与难点。由Reiss Koh于2026年4月创建并基于Gemini-3-Flash-Preview模型生成的LongBench Synthetic V4数据集，旨在系统性地填补现有基准对超长上下文（如64K至128K以上token）覆盖不足的空白。该数据集整合了多文档问答、单文档问答、长程依赖问答、短程依赖问答及摘要生成五大子集，共计984个独特上下文与9516个样本行，其上下文长度横跨8K至近百万token，为中长文本模型的能力测评提供了极具挑战性的标准化资源。该数据集的出现，不仅为评估大语言模型在真实长文档场景中的表现树立了新标杆，也对推动长上下文建模技术的发展具有显著影响力。

当前挑战

该数据集所解决的核心领域挑战在于现有基准对超长文本（尤其是超过32K token）的评估能力有限，模型在应对长程依赖、多文档交叉推理与精准摘要抽取时往往性能骤降，而这些恰好是金融、法律与学术研究等高要求应用中的关键任务。在构建过程中，挑战首先体现在如何生成高质量、语义连贯且覆盖不同长度的合成上下文，以避免数据噪声和任务歧义；其次，必须精心设计子集划分以确保各难度层级间的平滑过渡，同时平衡不同任务（如长程与短程问答）的样本分布，使得统计结果既全面又具代表性，这对数据生成与质量控制提出了严苛要求。

常用场景

经典使用场景

在长文本自然语言处理的研究版图中，LongBench Synthetic V4 凭借其精心构造的多源异构数据，已成为评估与提升长上下文模型理解能力的核心基准。该数据集整合了来自 LongBench V2 的多文档问答、单文档问答，以及 Loogle 的长程依赖问答、短程依赖问答与摘要生成等五个子集，覆盖了从短篇至超长文本的多样长度区间。其经典使用场景集中于探究模型在处理长度超过 128K 令牌的超长序列时的表现，尤其关注在不同上下文长度区间（如 16-32K、64-128K）下，模型对关键信息的定位、跨文档推理与语义压缩能力。这为对比主流长上下文大语言模型（如基于 Transformer 的稀疏注意力变体、状态空间模型等）在忠实度与连贯性上的优劣提供了标准化的评测框架。

衍生相关工作

LongBench Synthetic V4 的构建理念与丰富特质催生了一系列衍生研究工作。基于其多维度上下文长度分布的统计特性，研究者开发了动态长度自适应训练策略，通过按需分配计算资源来优化超长序列的训练效率；另有一些工作借鉴其子集划分方式，设计了专门的长文本记忆增强单元（如基于检索增强生成或外部缓存机制的模块）以缓解注意力瓶颈。在评测方法论层面，其后继工作常以此数据集为参照，扩展出涵盖多语种、多模态信息交汇的长上下文基准（如 LongBench V4 的改进版或与图像、表格混合的评测集），甚至涌现出针对长文本摘要忠实度的细粒度自动评估工具。此外，该数据集的高质量合成数据特性也启发了诸多利用强生成模型（如 Gemini 系列）自动化构造长上下文训练与评测数据的范式和开源流水线。

数据集最近研究