longbench_synthetic_v4
收藏Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/dac-research/longbench_synthetic_v4
下载链接
链接失效反馈官方服务:
资源简介:
LongBench Synthetic V4 是一个合成数据集,旨在支持长文本处理任务。数据集包含五个子集:longbench_v2_multidoc_qa(多文档问答)、longbench_v2_singledoc_qa(单文档问答)、loogle_longdep_qa(长依赖问答)、loogle_shortdep_qa(短依赖问答)和 loogle_summarization(摘要生成)。每个子集都包含训练集和验证集,数据以 parquet 格式存储。数据集统计信息显示了每个子集的唯一上下文数量、样本行数以及不同长度区间的样本分布(如 8K、8-16K、16-32K 等),并提供了中位数、90% 分位数和最大 token 数量。该数据集由 Reiss Koh 于 2026 年 4 月使用 gemini-3-flash-preview 模型生成,适用于长文本问答和摘要生成等任务。
创建时间:
2026-04-29
原始信息汇总
数据集概述
数据集名称:LongBench Synthetic V4
数据集页面:https://huggingface.co/datasets/dac-research/longbench_synthetic_v4
创建者:Reiss Koh
生成模型:gemini-3-flash-preview
生成日期:2026年4月
数据集配置
该数据集包含以下5个子集配置,每个配置均提供训练集(train)和验证集(validation)分割,数据以Parquet格式存储:
- longbench_v2_multidoc_qa — 多文档问答
- longbench_v2_singledoc_qa — 单文档问答
- loogle_longdep_qa — 长依赖问答
- loogle_shortdep_qa — 短依赖问答
- loogle_summarization — 摘要生成
数据集规模与统计
- 总独特上下文(Unique ctx):984个
- 总样本行数(Sample rows):9,516行
- 分词器:Qwen/Qwen3-14B
各子集详细统计
| 子集 | 独特上下文数 | 样本行数 | <8K | 8-16K | 16-32K | 32-64K | 64-128K | >128K | 中位数tokens | 第90百分位tokens | 最大值tokens |
|---|---|---|---|---|---|---|---|---|---|---|---|
| longbench_v2_multidoc_qa | 123 | 984 | 0 | 104 | 152 | 264 | 152 | 312 | 61,425 | 270,817 | 960,383 |
| longbench_v2_singledoc_qa | 166 | 1,400 | 0 | 112 | 376 | 128 | 352 | 432 | 75,354 | 221,060 | 865,154 |
| loogle_longdep_qa | 140 | 1,101 | 0 | 158 | 391 | 547 | 5 | 0 | 33,230 | 44,972 | 83,038 |
| loogle_shortdep_qa | 105 | 1,951 | 0 | 468 | 1,293 | 190 | 0 | 0 | 19,643 | 32,268 | 57,819 |
| loogle_summarization | 510 | 4,080 | 0 | 1,368 | 2,440 | 224 | 32 | 16 | 17,680 | 29,469 | 287,065 |
统计说明:
- 上下文长度共分为6个桶(<8K,8-16K,16-32K,32-64K,64-128K,>128K),每个桶内数字表示落入该长度的样本行数。
- 所有子集均包含8K以上的样本,超过32K的长上下文样本主要集中于
longbench_v2_multidoc_qa、longbench_v2_singledoc_qa和loogle_longdep_qa子集。 longbench_v2_multidoc_qa和longbench_v2_singledoc_qa包含超过128K的超长上下文样本,最大tokens分别达到960,383和865,154。loogle_summarization拥有最多的独特上下文(510个)和样本行数(4,080行)。
搜集汇总
数据集介绍

构建方式
LongBench Synthetic V4 数据集由 Reiss Koh 于 2026 年 4 月创建,基于 Gemini-3-Flash-Preview 模型进行生成。该数据集涵盖五个子集:longbench_v2_multidoc_qa、longbench_v2_singledoc_qa、loogle_longdep_qa、loogle_shortdep_qa 以及 loogle_summarization,分别对应多文档问答、单文档问答、长依赖问答、短依赖问答和摘要生成任务。每个子集均划分为训练集和验证集,并以 Parquet 格式存储。构建过程中,通过精心设计的上下文与问题对,确保样本覆盖从 8K 至超过 128K 标记的广泛长度范围,其中长上下文占比显著,反映了对模型长程理解能力的深度考察。
特点
该数据集的核心特点在于其极致的上下文长度多样性,统计显示中位数标记数从约 17,680 到 75,354 不等,最大长度可达 960,383 标记,远超传统基准。独特的上下文数量达到 984 个,共衍生出 9,516 个样本行,每个上下文被多次复用并搭配不同问题,从而在有限上下文基础上扩展出丰富且富有挑战性的测试场景。子集设计覆盖问答与摘要两大典型长文本任务,尤其侧重于依赖复杂文档结构的深度推理能力,为评估长上下文语言模型提供了严苛且全面的评测平台。
使用方法
用户可通过 Hugging Face Datasets 库便捷加载该数据集,支持按子集名称如 'longbench_v2_multidoc_qa' 指定配置,并选择 train 或 validation 分片进行使用。数据以 Parquet 格式存储,高效支持大规模样本的读取与处理,兼容主流深度学习框架。建议用户在评估模型时,优先关注长上下文(如超过 32K 标记)子集的表现,以便全面衡量模型在复杂多文档场景下的检索、推理与归纳能力。此外,数据集的构建细节和生成模型信息已明确提供,可用于复现或扩展研究。
背景与挑战
背景概述
在自然语言处理领域,长文本理解与推理能力的评估一直是研究的前沿与难点。由Reiss Koh于2026年4月创建并基于Gemini-3-Flash-Preview模型生成的LongBench Synthetic V4数据集,旨在系统性地填补现有基准对超长上下文(如64K至128K以上token)覆盖不足的空白。该数据集整合了多文档问答、单文档问答、长程依赖问答、短程依赖问答及摘要生成五大子集,共计984个独特上下文与9516个样本行,其上下文长度横跨8K至近百万token,为中长文本模型的能力测评提供了极具挑战性的标准化资源。该数据集的出现,不仅为评估大语言模型在真实长文档场景中的表现树立了新标杆,也对推动长上下文建模技术的发展具有显著影响力。
当前挑战
该数据集所解决的核心领域挑战在于现有基准对超长文本(尤其是超过32K token)的评估能力有限,模型在应对长程依赖、多文档交叉推理与精准摘要抽取时往往性能骤降,而这些恰好是金融、法律与学术研究等高要求应用中的关键任务。在构建过程中,挑战首先体现在如何生成高质量、语义连贯且覆盖不同长度的合成上下文,以避免数据噪声和任务歧义;其次,必须精心设计子集划分以确保各难度层级间的平滑过渡,同时平衡不同任务(如长程与短程问答)的样本分布,使得统计结果既全面又具代表性,这对数据生成与质量控制提出了严苛要求。
常用场景
经典使用场景
在长文本自然语言处理的研究版图中,LongBench Synthetic V4 凭借其精心构造的多源异构数据,已成为评估与提升长上下文模型理解能力的核心基准。该数据集整合了来自 LongBench V2 的多文档问答、单文档问答,以及 Loogle 的长程依赖问答、短程依赖问答与摘要生成等五个子集,覆盖了从短篇至超长文本的多样长度区间。其经典使用场景集中于探究模型在处理长度超过 128K 令牌的超长序列时的表现,尤其关注在不同上下文长度区间(如 16-32K、64-128K)下,模型对关键信息的定位、跨文档推理与语义压缩能力。这为对比主流长上下文大语言模型(如基于 Transformer 的稀疏注意力变体、状态空间模型等)在忠实度与连贯性上的优劣提供了标准化的评测框架。
衍生相关工作
LongBench Synthetic V4 的构建理念与丰富特质催生了一系列衍生研究工作。基于其多维度上下文长度分布的统计特性,研究者开发了动态长度自适应训练策略,通过按需分配计算资源来优化超长序列的训练效率;另有一些工作借鉴其子集划分方式,设计了专门的长文本记忆增强单元(如基于检索增强生成或外部缓存机制的模块)以缓解注意力瓶颈。在评测方法论层面,其后继工作常以此数据集为参照,扩展出涵盖多语种、多模态信息交汇的长上下文基准(如 LongBench V4 的改进版或与图像、表格混合的评测集),甚至涌现出针对长文本摘要忠实度的细粒度自动评估工具。此外,该数据集的高质量合成数据特性也启发了诸多利用强生成模型(如 Gemini 系列)自动化构造长上下文训练与评测数据的范式和开源流水线。
数据集最近研究
最新研究方向
在长文本处理领域,随着大语言模型上下文窗口的持续扩展,如何精准评估模型在超长序列下的问答与摘要能力成为核心议题。longbench_synthetic_v4数据集应运而生,它通过整合longbench_v2与loogle两大基准,覆盖多文档问答、单文档问答及长短期依赖摘要等任务,构建了从8K到超128K令牌的梯度挑战。其样本中位数令牌数普遍超过17K,最高近百万,尤其突出了对模型在极长上下文场景中信息检索与逻辑连贯性的严苛考验。该数据集的发布推动了长文本理解研究从粗粒度分类向细粒度长程依赖推理的跃迁,为验证新一代模型是否真正突破‘大海捞针’瓶颈提供了高可靠性的实验平台,其分层统计特征也助力社区系统性地剖析不同长度下模型的性能衰减曲线。
以上内容由遇见数据集搜集并总结生成



