oolong-synth-32k-128k

Hugging Face2026-01-20 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/tonychenxyz/oolong-synth-32k-128k

下载链接

链接失效反馈

官方服务：

资源简介：

Oolong-Synth是一个具有挑战性的长上下文模型聚合基准数据集，用于测试模型分析单个文本块并聚合这些分析以回答分布问题的能力。该数据集包含32K-128K上下文长度的子集，提供了两种配置：memwrap（带有内存标记）和plain（不带内存标记）。数据集结构包括prompt（聊天模板提示字符串）、category（变体/oolong-synth/任务组/上下文长度）和extra_info（包含ground_truth和scoring_function）。任务类型包括计数任务（最常见标签、最少见标签、标签计数）、时间线任务（时间分布问题）和用户任务（用户特定模式问题）。答案类型包括标签、数字、比较语句、日期等。数据集还提供了加载和使用示例，以及评估方法（如准确性和部分得分）。

创建时间：

2026-01-09

原始信息汇总

Oolong-Synth (32K-128K context lengths) 数据集概述

基本信息

数据集名称: Oolong-Synth (32K-128K context lengths) for Code-LLaVA
托管地址: https://huggingface.co/datasets/tonychenxyz/oolong-synth-32k-128k
许可协议: MIT
主要任务类别: 问答、文本分类
语言: 英语
标签: 长上下文、聚合、推理、基准测试
数据规模: 1K<n<10K

数据来源与背景

相关论文: Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities
原始数据集: oolongbench/oolong-synth
数据集描述: Oolong 是一个用于评估长上下文模型的、具有挑战性的聚合基准测试，旨在测试模型分析独立文本块并聚合这些分析以回答分布性问题的能力。本数据集包含 Oolong-synth 的 32K-128K 上下文长度 子集。

上下文长度

该子集包含上下文长度为以下token数量的样本：32768, 65536, 131072。

数据集结构

提供两种配置：

memwrap: 上下文窗口被包裹在 <|memory_start|> / <|memory_end|> 标记中。
plain: 相同内容，但不包含内存标记（基线）。

配置详情

配置名称: memwrap

数据文件: memwrap/test-*
特征:
- prompt: 字符串类型，聊天模板化的提示字符串。
- category: 字符串类型，格式为 {variant}/oolong-synth/{task_group}/{context_len}。
- extra_info: 结构体，包含：
  - ground_truth: 结构体，包含 answer, answer_type, task, task_group, dataset, context_len。
  - scoring_function: 字符串类型。
  - variant: 字符串类型。
数据分割: test
- 样本数量: 1200
- 字节数: 258976310
下载大小: 137776492
数据集大小: 258976310

配置名称: plain

数据文件: plain/test-*
特征:
- prompt: 字符串类型，聊天模板化的提示字符串。
- category: 字符串类型，格式为 {variant}/oolong-synth/{task_group}/{context_len}。
- extra_info: 结构体，包含：
  - ground_truth: 结构体，包含 answer, answer_type, context_len, dataset, task, task_group。
  - scoring_function: 字符串类型。
  - variant: 字符串类型。
数据分割: test
- 样本数量: 1200
- 字节数: 258933110
下载大小: 137731573
数据集大小: 258933110

任务类型

计数任务: 最常见标签、最不常见标签、标签计数。
时间线任务: 时间分布问题。
用户任务: 用户特定模式问题。

答案类型

ANSWER_TYPE.LABEL: 分类标签。
ANSWER_TYPE.NUMERIC: 数字计数。
ANSWER_TYPE.COMPARISON: 比较性陈述。
ANSWER_TYPE.DATE: 日期答案。
ANSWER_TYPE.MONTH_YEAR: 年月答案。
ANSWER_TYPE.USER: 用户ID。

使用方法

python from datasets import load_dataset

加载 memwrap 变体

ds = load_dataset("tonychenxyz/oolong-synth-32k-128k", "memwrap", split="test")

按任务组过滤

counting = ds.filter(lambda x: "counting" in x["category"])

评估方法

评分器 (oolong_synth) 计算以下指标：

accuracy: 对于分类答案采用精确匹配，对于日期答案采用日期匹配。
partial_score: 对于数字答案，使用指数衰减计算：0.75^|gold - pred|。

搜集汇总

数据集介绍

构建方式

在长上下文推理领域，oolong-synth-32k-128k数据集通过精心设计的合成方法构建，旨在评估模型对分散信息的聚合能力。该数据集从原始oolong-synth基准中选取了上下文长度分别为32768、65536和131072令牌的样本，形成专注于超长文本处理的子集。其构建过程涉及生成复杂的文本块，每个块包含独立的分析内容，并嵌入分布性问题，要求模型跨多个片段进行推理与汇总。数据以两种配置呈现：memwrap版本使用特定标记包裹上下文窗口，而plain版本则提供无标记的基准内容，共同构成对模型长上下文处理能力的系统测试。

特点

该数据集的核心特征在于其专注于超长上下文环境下的聚合推理挑战，覆盖了从32K到128K令牌的广泛长度范围。其结构设计体现了多样性，包含计数任务、时间线任务和用户任务等多种类型，每种任务均需模型从分散的文本块中提取并整合信息。数据集中每个样本均附带详细的元数据，如答案类型、任务组和上下文长度，支持细粒度的分析与评估。特别地，答案类型涵盖了分类标签、数值计数、比较陈述、日期及用户标识等多种形式，确保了评估维度的全面性。两种配置的并存为研究记忆标记对模型性能的影响提供了直接对比的基础。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库便捷加载，指定‘memwrap’或‘plain’配置以获取相应格式的数据。加载后，可利用数据集的分类字段进行筛选，例如聚焦于特定的任务组进行分析。评估过程依赖于内置的‘oolong_synth’评分函数，该函数根据答案类型采用不同的匹配策略：对于分类答案采用精确匹配，对于日期答案进行日期匹配，而对于数值答案则采用基于指数衰减的部分评分机制。这种设计使得该数据集能够作为评估长上下文模型聚合与推理能力的标准化基准，为模型性能提供量化且可比较的度量。

背景与挑战

背景概述

在长上下文语言模型快速发展的背景下，评估模型对超长文本的理解、推理与信息聚合能力成为自然语言处理领域的前沿课题。oolong-synth-32k-128k数据集应运而生，其源自2025年发表的论文《Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities》，由研究团队oolongbench创建。该数据集的核心研究问题聚焦于测试模型在32K至128K令牌的超长上下文窗口中，执行分布性推理与跨片段信息聚合的能力，例如统计高频标签或分析时间线模式。作为专门针对长上下文模型的基准测试工具，它推动了模型在文档级理解与复杂问答任务上的性能评估，对提升大语言模型的实际应用效能具有显著影响力。

当前挑战

该数据集旨在解决长上下文模型在信息聚合与分布性推理任务上的评估挑战。具体而言，模型需要从分散在超长文本中的多个片段中提取、整合信息，以回答涉及统计、比较或时序的复杂问题，这对模型的记忆保持、逻辑连贯与全局分析能力提出了极高要求。在构建过程中，挑战主要源于生成高质量、多样化的合成数据，并精确控制上下文长度至32K、65K及128K令牌级别，同时确保任务类型（如计数、时间线、用户模式）的合理分布与答案标注的准确性，以构建一个可靠且具区分度的评估基准。

常用场景

经典使用场景

在长上下文推理领域，oolong-synth-32k-128k数据集被广泛用于评估大语言模型在超长文本中的聚合分析能力。该数据集通过设计包含32K至128K令牌的上下文长度，模拟了现实世界中需要处理海量信息的场景，例如从冗长文档中提取关键统计信息或识别时间线模式。研究者通常利用其memwrap和plain两种配置，测试模型在有无结构化标记辅助下的性能差异，从而深入探究长上下文建模的机制与局限。

实际应用

在实际应用中，该数据集为开发能够处理复杂长文档的智能系统提供了关键测试平台。例如，在金融报告分析、医疗记录汇总或法律文书审查中，系统需要从数十万令牌的文本中准确提取分布性答案，如统计特定事件频率或梳理时间线。oolong-synth的评估框架帮助工程师验证模型在真实长文档场景下的可靠性，为构建高性能的文档理解、智能问答及决策支持系统奠定了实证基础。

衍生相关工作

围绕该数据集，学术界衍生了一系列经典研究工作。例如，基于Oolong基准的原始论文系统提出了长上下文聚合能力的评估范式，后续研究则进一步探索了记忆标记（memwrap）对模型注意力机制的影响。许多改进的长上下文模型，如扩展的Transformer变体或检索增强架构，都利用该数据集进行性能验证与对比分析，推动了如Code-LLaVA等模型在代码与长文本多模态理解方向的发展，形成了持续演进的技术生态。

以上内容由遇见数据集搜集并总结生成