dac-research/longbench_synthetic_v3_1
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/dac-research/longbench_synthetic_v3_1
下载链接
链接失效反馈官方服务:
资源简介:
LongBench Synthetic V3.1是一个包含多个子集的数据集,用于评估和训练自然语言处理模型。数据集包含训练集和评估集,每个子集有不同的数据文件和分割(train、validation、test)。数据集提供了详细的统计信息,包括唯一上下文数量、样本行数、不同长度区间的样本数量、中位数token数、90百分位token数和最大token数。这些信息有助于了解数据集的规模和分布。
LongBench Synthetic V3.1 is a dataset containing multiple subsets for evaluating and training natural language processing models. The dataset includes training and evaluation sets, with each subset having different data files and splits (train, validation, test). The dataset provides detailed statistics, including the number of unique contexts, sample rows, sample counts in different length intervals, median token counts, 90th percentile token counts, and maximum token counts. This information helps in understanding the scale and distribution of the dataset.
提供机构:
dac-research
搜集汇总
数据集介绍

构建方式
LongBench Synthetic V3.1 数据集由 Reiss Koh 于2026年4月基于 Gemini-3-Flash-Preview 模型生成,旨在通过合成技术扩展长文本理解基准测试的覆盖范围。该数据集在 LongBench 原始子集的基础上,对多个领域的已有问答与文本分析任务进行深度加工,构建出跨文档与跨段落推理的合成样本。数据以 Parquet 格式存储,划分为训练集和验证集,涵盖2wikimqa、gov_report、hotpotqa、multi_news 等14个配置,每个配置对应特定的任务类型和领域,以提供丰富的评估维度。
特点
该数据集的核心特点在于其分层语义类别体系,每一行数据通过 class 字段被精确分配给12个语义簇之一,例如 native_multi_hop_qa(原生多跳问答)与 synthetic_cross_span_qa(合成跨跨度问答)。这种设计使得研究者能够根据具体的研究需求,如评估模型在多跳推理或跨文档信息整合上的表现,灵活选取相应子集。数据集规模分布不均衡,其中 synthetic_cross_span_qa 类别下包含最多样本,如 multi_news_e 达到2,256条,而 narrativeqa 仅有20条,凸显了针对不同复杂度任务的差异化采样策略。
使用方法
使用时,用户可通过 Hugging Face Datasets 库加载指定配置,例如以 `load_dataset('longbench_synthetic_v3_1', 'hotpotqa', split='test')` 方式获取 hotpotqa 子集的测试数据。每个配置均提供 train 或 test 分片,便于进行模型训练与评估。建议参照 `analysis/260505_subset_class_cluster/README.md` 中的语义聚类说明,按 class 字段过滤样本以适配特定实验目标,或采用所有配置进行综合性长文本理解能力基准测试。数据集无显式标签体系,但 class 字段可作为元信息辅助结果解析与分析。
背景与挑战
背景概述
LongBench Synthetic V3.1 是由研究者 Reiss Koh 于 2026 年 4 月创建的一个大型语言模型评测数据集,旨在系统评估长文本理解与推理能力。该数据集整合了 2wikimqa、hotpotqa、narrativeqa 等 14 个经典子集,涵盖多跳问答、单跳问答、跨跨度问答等多样任务,并依据 12 个语义类别进行结构化标注。作为 LongBench 系列的合成版本,其核心研究问题在于通过可控生成手段,构建兼具真实性与多样性的长文本评估基准。该数据集的发布填补了现有长文本基准在语义覆盖与生成质量上的空白,对推动大模型在复杂文档推理、信息聚合等场景的性能评测具有重要影响,成为长上下文语言模型能力验证的关键资源。
当前挑战
该数据集主要面临两大挑战。在领域问题层面,现有长文本基准多聚焦于单一任务类型,难以覆盖多跳推理、跨文档摘要等复杂场景,LongBench Synthetic V3.1 通过整合多类子集并引入语义分类,试图解决长文本理解中任务多样性与评估全面性的矛盾。在构建过程中,需平衡合成数据与原生数据的分布差异,避免生成样本引入虚假相关性;同时,多子集间的标注对齐与跨数据集一致性维护极具难度,例如 hotpotqa 与 hotpotqa_e 的规模差异需精细设计。此外,确保每个语义类别的数据量均衡,以防止模型对特定模式过度依赖,也是构建中的关键挑战。
常用场景
经典使用场景
LongBench Synthetic V3.1 数据集汇聚了源自多个经典基准(如 HotpotQA、2WikiMQA、NarrativeQA 等)的长文本样本,旨在评估和提升大语言模型在超长上下文场景下的理解与推理能力。其核心应用场景聚焦于长文档问答、多跳推理和摘要生成等任务,通过引入合成数据增强策略,模拟了跨文档信息聚合、复杂逻辑链条追踪等真实需求。研究人员常利用该数据集的十二种语义类别(如原生多跳问答、合成跨跨度问答)系统性地测试模型在不同知识密度和上下文关联性下的表现,从而推动长文本处理技术的边界拓展。
解决学术问题
该数据集着力解决大语言模型在处理超过典型上下文窗口长度的文本时所面临的关键挑战,包括信息定位不准、多步推理断裂以及跨文档知识整合困难等学术难题。通过提供结构化的长文本样本和精细的语义分类,它使研究者能够深入剖析模型在分布式注意力、记忆回溯和冗余过滤等方面的局限性。这一工作为长上下文理解的研究提供了可复现的标准化评估平台,促进了模型在长程依赖建模方面的理论突破,对构建更稳健、更高效的语言智能系统具有深远意义。
衍生相关工作
基于 LongBench Synthetic V3.1 数据集,研究社区已衍生了多项创新工作,涵盖上下文压缩与检索增强生成机制的联合优化、面向超长文本的分段式推理架构设计以及多文档跨知识图谱的自动对齐算法。该数据集曾作为关键评估工具出现在探讨稀疏注意力机制与内存缓存策略的效率对比研究中,并催生了针对长上下文训练数据合成的 pipeline 优化方法。此外,其语义分类框架被进一步扩展至多语言场景,启发了跨语言长文本理解基准的构建,持续推动着语言模型从短文本对话向全文档级智能分析的演进。
以上内容由遇见数据集搜集并总结生成



