LongBlocks
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/utter-project/LongBlocks
下载链接
链接失效反馈官方服务:
资源简介:
LongBlocks是一个多语言合成数据集,专为训练长上下文语言模型而设计,旨在支持需要长输入推理的任务,如多跳推理、上下文基础、长形式问答、信息综合、文档级理解以及长上下文代码和技术推理。数据集包含约194,000个长上下文问答示例,源自多种长文档语料库,包括书籍、高质量多语言网页文档、科学论文、百科全书文章、教育编程内容和社区问答内容。每个示例由长源文档(对于受限的机构书籍示例,此字段为空)、源语料库标识、语言或编程语言标识、合成的长上下文问题、经过筛选的参考答案以及来自Qwen3-Next-80B-A3B、Qwen3.5-27B和Nemotron-3-Nano-30B-A3B三个教师模型的可选生成响应组成。数据集主要用于长上下文语言建模研究,适用于监督微调、知识蒸馏、强化学习、检索与推理以及合成数据过滤验证等场景。需要注意的是,由于许可限制,来自Institutional-Books-1.0源语料库的文档未随数据集分发,但提供了本地重建完整数据集的指南。数据集在CC BY-SA 4.0许可下发布,但用户需遵守所有底层数据源的条款。
LongBlocks is a multilingual synthetic dataset for training long-context language models. It is designed to support tasks requiring long-input reasoning, such as multi-hop reasoning, context grounding, long-form question answering, information synthesis, document-level understanding, and long-context code and technical reasoning. The dataset contains approximately 194,000 long-context question-answering examples derived from diverse long-document corpora, including books, high-quality multilingual web documents, scientific papers, encyclopedia articles, educational programming content, and community question-answering content. Each data instance consists of the following fields: a long source document (this field is empty for restricted institutional book examples), a field identifying the source corpus, a field indicating the example's language or programming language, a synthesized long-context question, a reference answer filtered to ensure groundedness, and optional generated responses from three teacher models: Qwen3-Next-80B-A3B, Qwen3.5-27B, and Nemotron-3-Nano-30B-A3B. The dataset is primarily used for long-context language modeling research, applicable to scenarios such as supervised fine-tuning, knowledge distillation, reinforcement learning, retrieval and reasoning, and synthetic data filtering validation. It should be noted that due to licensing restrictions, documents from the Institutional-Books-1.0 source corpus are not distributed with the dataset, but a guide for locally reconstructing the complete dataset is provided. The dataset itself is released under the CC BY-SA 4.0 license, but users must comply with the terms of all underlying data sources.
创建时间:
2026-05-11
搜集汇总
数据集介绍

构建方式
LongBlocks数据集以多源长文档为基础,从Institutional-Books-1.0、FineWeb2-HQ、PGBooks、arXiv、Wikipedia、Stack-Edu及StackExchange等语料库中抽取书籍、网页、论文、代码及社区问答等文本。首先将长文档分割为合理段落,随后利用教师模型自动生成上下文依赖的问答对,并经过groundedness过滤以确保答案与文档的关联性。针对Institutional-Books-1.0因许可限制无法直接分发的文档,数据集提供基于ID的本地重建脚本,允许用户通过关联原始书籍库恢复完整文档内容,最终拼接并混洗形成约194K条训练样本。
特点
该数据集的核心特色在于其多语言、多领域的长上下文覆盖能力,支持英语、法语、德语、中文等20种语言,涵盖从文学到科学的广泛知识领域。每个样本包含长文档、合成问题、参考答案及来自Qwen3-Next-80B-A3B、Qwen3.5-27B和Nemotron-3-Nano-30B-A3B三个教师模型的生成响应,为知识蒸馏和多模型对比研究提供天然支撑。数据集聚焦于需要深度文档理解的任务,如多跳推理、长程问答和信息综合,同时保留了对代码和学术论文等专业内容的长文本建模能力。
使用方法
研究者可通过HuggingFace Datasets库直接加载LongBlocks的训练集,支持流式模式以应对内存受限环境。典型应用包括监督微调长上下文语言模型、开展序列级知识蒸馏实验,以及基于教师响应进行强化学习训练。数据集设计的问答结构使其天然适配检索增强生成场景,可通过筛选不同源字段或语言字段构建子集。对于包含Institutional-Books-1.0数据的完整版,需按文档指引运行本地重建脚本,将ID映射回原始图书页面文本后与其余数据合并,最终混洗生成完整的训练集合。
背景与挑战
背景概述
LongBlocks数据集由葡萄牙里斯本大学的Miguel Moura Ramos、Duarte M. Alves及André F. T. Martins等研究人员于2026年创建,旨在解决大型语言模型在超长上下文场景下推理能力不足的核心问题。随着Transformer架构的上下文窗口从数千扩展至数万乃至百万级token,现有训练数据多集中于短文本,导致模型在需要跨长程信息综合、多跳推理及长文档理解的复杂任务中表现不佳。该数据集汇集了图书、网页、维基百科、arXiv论文、编程代码及社区问答等来源,生成约19.4万个高质量长上下文问答对,并提供来自多个教师模型的生成响应,为长上下文语言模型的后训练提供了规模化、多语种的高质量基准资源,在长文本建模领域具有里程碑式意义。
当前挑战
LongBlocks所应对的核心领域挑战是长上下文语言模型在跨段信息推理与综合中的性能退化问题,传统短文本数据难以模拟真实场景中长达数十万字符的文档理解需求,导致模型在需要多步逻辑连接、跨章节事实关联及长程依赖建模的任务中准确率骤降。构建过程中,团队面临两大技术壁垒:其一,如何从异构来源(如印刷图书的OCR文本与代码片段)自动生成语义连贯且事实准确的问答对,需设计严格的接地性过滤流程;其二,部分源语料(如Institutional-Books-1.0)因许可限制无法直接分发,需提供本地重构方案以保证数据集完整性,这对开源社区的复现研究构成了一定门槛。
常用场景
经典使用场景
LongBlocks 数据集专为长上下文语言模型的训练与评估而设计,涵盖了书籍、网页文本、维基百科、arXiv论文、编程代码及社区问答等多种来源的长文档。其核心应用场景在于支持需要跨长序列进行推理的复杂任务,包括多跳推理、上下文事实核查、长文档问答、信息整合以及代码与技术的深度理解。凭借其多语言、多来源与多领域特性,该数据集在长程语言建模的监督微调、序列级知识蒸馏以及长上下文强化学习等前沿研究中发挥着不可替代的基准作用。
解决学术问题
LongBlocks 有效解决了当前大语言模型在处理超长文本时普遍存在的推理能力不足与幻觉问题。通过构建近 20 万条高质量的长上下文问答对,并引入多教师模型的响应进行对比,该数据集为学术研究提供了训练与评估长程语义理解、信息检索与跨段落合成的标准化平台。其意义在于推动了长上下文模型在证据追溯、多步逻辑推理及文档级知识整合等方面的能力突破,为构建真正能理解长篇复杂语境的语言智能体奠定了关键数据基础。
衍生相关工作
围绕 LongBlocks 已衍生出一系列代表性学术工作,如基于该数据集的序列级知识蒸馏方法探索,以及结合在线策略优化与蒸馏的长上下文推理技术。研究者利用其中的多教师响应列进行对比学习与模型压缩,推动了高效长程模型的演进。此外,部分工作还以此为基础研究合成数据的自动质量过滤与验证机制,显著提升了大规模训练数据的可靠性。这些衍生研究共同拓展了长上下文语言模型在资源受限场景下的部署潜力与推理鲁棒性。
以上内容由遇见数据集搜集并总结生成



